Utjefte fan it tekstherkenningssysteem Tesseract 5.1

De frijlitting fan it optyske tekstherkenningssysteem Tesseract 5.1 is publisearre, en stipet erkenning fan UTF-8-tekens en teksten yn mear as 100 talen, ynklusyf Russysk, Kazachsk, Wyt-Russysk en Oekraynsk. It resultaat kin wurde bewarre yn platte tekst of yn HTML (hOCR), ALTO (XML), PDF en TSV formaten. It systeem waard oarspronklik makke yn 1985-1995 yn it Hewlett Packard laboratoarium; yn 2005 waard de koade iepene ûnder de Apache-lisinsje en waard fierder ûntwikkele mei de dielname fan Google-meiwurkers. De boarnekoade fan it projekt wurdt ferspraat ûnder de Apache 2.0-lisinsje.

Tesseract omfettet in konsole-hulpprogramma en de libtesseract-bibleteek foar it ynbêdzjen fan OCR-funksjonaliteit yn oare applikaasjes. GUI-ynterfaces fan tredden dy't Tesseract stypje omfetsje gImageReader, VietOCR en YAGF. Twa herkenningsmotoren wurde oanbean: in klassiker dy't tekst herkent op it nivo fan yndividuele karakterpatroanen, en in nije basearre op it brûken fan in masine-learsysteem basearre op in LSTM weromkommend neural netwurk, optimalisearre foar it werkennen fan heule snaren en it tastean fan in signifikante tanimming fan krektens. Ready-made trained modellen binne publisearre foar 123 talen. Om de prestaasjes te optimalisearjen wurde modules mei OpenMP en SIMD ynstruksjes AVX2, AVX, NEON of SSE4.1 oanbean.

Grutte ferbetterings yn Tesseract 5.1:

  • De mooglikheid om gebieten te ferwurkjen mei ôfbyldings en rigels by it útfieren yn ALTO, hOCR en tekstformaten is ymplementearre.
  • Nije parameter tafoege curl_timeout lkz curl_easy_setop.
  • Ferbettere bouwsysteem.
  • Der is wurke oan it fuortheljen fan net brûkte koade
  • Fêste crashes feroarsake troch ferkearde ôfhanneling fan nul-oanwizers yn 'e PageIterator :: Oriïntaasjeklasse.

Boarne: opennet.ru

Add a comment