Útgáfa textagreiningarkerfisins Tesseract 5.2

Útgáfa Tesseract 5.2 optíska textagreiningarkerfisins hefur verið gefin út, sem styður viðurkenningu á UTF-8 stöfum og texta á meira en 100 tungumálum, þar á meðal rússnesku, kasakska, hvítrússnesku og úkraínsku. Niðurstöðuna er hægt að vista í venjulegum texta eða í HTML (hOCR), ALTO (XML), PDF og TSV sniðum. Kerfið var upphaflega búið til á árunum 1985-1995 í Hewlett Packard rannsóknarstofunni; árið 2005 var kóðinn opnaður undir Apache leyfinu og var þróaður áfram með þátttöku starfsmanna Google. Frumkóði verkefnisins er dreift undir Apache 2.0 leyfinu.

Tesseract inniheldur stjórnborðsforrit og libtesseract bókasafnið til að fella OCR virkni inn í önnur forrit. Þriðja aðila GUI tengi sem styðja Tesseract eru gImageReader, VietOCR og YAGF. Tvær auðkenningarvélar eru í boði: klassísk sem þekkir texta á stigi einstakra stafamynstra og ný sem byggir á notkun vélanámskerfis sem byggir á LSTM endurteknu tauganeti, fínstillt til að þekkja heila strengi og gerir kleift að veruleg aukning á nákvæmni. Tilbúnar þjálfaðar gerðir hafa verið gefnar út fyrir 123 tungumál. Til að hámarka frammistöðu eru einingar sem nota OpenMP og SIMD leiðbeiningar AVX2, AVX, AVX512F, NEON eða SSE4.1 í boði.

Helstu endurbætur á Tesseract 5.2:

  • Bætti við hagræðingu útfærð með Intel AVX512F leiðbeiningum.
  • C API útfærir aðgerð til að frumstilla tesseract með því að hlaða vélnámslíkani úr minni.
  • Bætti við invert_threshold færibreytunni, sem ákvarðar umsnúningsstig textastrengja. Sjálfgefið gildi er 0.7. Til að slökkva á snúningi skaltu stilla gildið á 0.
  • Bætt vinnsla á mjög stórum skjölum á 32-bita vélum.
  • Umskiptin hafa verið gerð frá því að nota std::regex föll yfir í std::streng.
  • Bætt byggingarforskriftir fyrir Autotools, CMake og samfelld samþættingarkerfi.

    Heimild: opennet.ru

Bæta við athugasemd