Utjefte fan it tekstherkenningssysteem Tesseract 5.0

De frijlitting fan it optyske tekstherkenningssysteem Tesseract 4.1 is publisearre, en stipet erkenning fan UTF-8-tekens en teksten yn mear as 100 talen, ynklusyf Russysk, Kazachsk, Wyt-Russysk en Oekraynsk. It resultaat kin wurde bewarre yn platte tekst of yn HTML (hOCR), ALTO (XML), PDF en TSV formaten. It systeem waard oarspronklik makke yn 1985-1995 yn it Hewlett Packard laboratoarium; yn 2005 waard de koade iepene ûnder de Apache-lisinsje en waard fierder ûntwikkele mei de dielname fan Google-meiwurkers. De boarnekoade fan it projekt wurdt ferspraat ûnder de Apache 2.0-lisinsje.

Tesseract omfettet in konsole-hulpprogramma en de libtesseract-bibleteek foar it ynbêdzjen fan OCR-funksjonaliteit yn oare applikaasjes. GUI-ynterfaces fan tredden dy't Tesseract stypje omfetsje gImageReader, VietOCR en YAGF. Twa herkenningsmotoren wurde oanbean: in klassiker dy't tekst herkent op it nivo fan yndividuele karakterpatroanen, en in nije basearre op it brûken fan in masine-learsysteem basearre op in LSTM weromkommend neural netwurk, optimalisearre foar it werkennen fan heule snaren en it tastean fan in signifikante tanimming fan krektens. Ready-made trained modellen binne publisearre foar 123 talen. Om de prestaasjes te optimalisearjen wurde modules mei OpenMP en SIMD ynstruksjes AVX2, AVX, NEON of SSE4.1 oanbean.

Grutte ferbetterings yn Tesseract 5.0:

  • In wichtige feroaring yn ferzjenûmer is te tankjen oan feroarings makke oan 'e API dy't kompatibiliteit brekke. Benammen de publyklik beskikbere libtesseract API is net mear bûn oan de proprietêre GenericVector en STRING gegevenstypen, yn it foardiel fan std :: string en std :: vector.
  • De boarnetekstbeam is reorganisearre. Iepenbiere koptekstbestannen binne ferpleatst nei de map include/tesseract.
  • Unthâldbehear is opnij ûntwurpen, alle malloc en fergese petearen binne ferfongen troch C ++ koade. In algemiene modernisearring fan de koade is útfierd.
  • Optimisaasjes tafoege foar ARM- en ARM64-arsjitektuer; ARM NEON-ynstruksjes wurde brûkt om berekkeningen te fersnellen. Prestaasjeoptimalisaasje mienskiplik foar alle arsjitektuer is útfierd.
  • Nije modi foar trainingsmodellen en tekstherkenning basearre op it gebrûk fan driuwende puntberekkeningen binne ymplementearre. De nije modi biede hegere prestaasjes en legere ûnthâldferbrûk. Yn 'e LSTM-motor is float32-snelle modus standert ynskeakele.
  • In oergong is makke nei it brûken fan Unicode-normalisaasje mei it NFC-formulier (Normalization Form Canonical).
  • In opsje tafoege om logdetails te konfigurearjen (--loglevel).
  • It bousysteem basearre op Autotools is opnij ûntworpen en oerskeakele om te bouwen yn net-rekursive modus.
  • De "master" branch yn Git is omneamd ta "haad".
  • Stipe tafoege foar nije releases fan macOS- en Apple-systemen basearre op de M1-chip.

    Boarne: opennet.ru

Add a comment