Útgáfa textagreiningarkerfisins Tesseract 5.1

Útgáfa Tesseract 5.1 optíska textagreiningarkerfisins hefur verið gefin út, sem styður viðurkenningu á UTF-8 stöfum og texta á meira en 100 tungumálum, þar á meðal rússnesku, kasakska, hvítrússnesku og úkraínsku. Niðurstöðuna er hægt að vista í venjulegum texta eða í HTML (hOCR), ALTO (XML), PDF og TSV sniðum. Kerfið var upphaflega búið til á árunum 1985-1995 í Hewlett Packard rannsóknarstofunni; árið 2005 var kóðinn opnaður undir Apache leyfinu og var þróaður áfram með þátttöku starfsmanna Google. Frumkóði verkefnisins er dreift undir Apache 2.0 leyfinu.

Tesseract inniheldur stjórnborðsforrit og libtesseract bókasafnið til að fella OCR virkni inn í önnur forrit. Þriðja aðila GUI tengi sem styðja Tesseract eru gImageReader, VietOCR og YAGF. Tvær auðkenningarvélar eru í boði: klassísk sem þekkir texta á stigi einstakra stafamynstra og ný sem byggir á notkun vélanámskerfis sem byggir á LSTM endurteknu tauganeti, fínstillt til að þekkja heila strengi og gerir kleift að veruleg aukning á nákvæmni. Tilbúnar þjálfaðar gerðir hafa verið gefnar út fyrir 123 tungumál. Til að hámarka frammistöðu eru einingar sem nota OpenMP og SIMD leiðbeiningar AVX2, AVX, NEON eða SSE4.1 í boði.

Helstu endurbætur á Tesseract 5.1:

  • Möguleikinn á að vinna svæði með myndum og línum við úttak á ALTO, hOCR og textasniðum hefur verið innleidd.
  • Bætti við nýrri breytu curl_timeout lkz curl_easy_setop.
  • Bætt byggingarkerfi.
  • Unnið hefur verið að því að fjarlægja ónotaðan kóða
  • Lagaði hrun af völdum rangrar meðhöndlunar á núllbendingum í PageIterator::Orientation bekknum.

Heimild: opennet.ru

Bæta við athugasemd