Teksta atpazīšanas sistēmas Tesseract izlaišana 5.3.4

Ir publicēts Tesseract 5.3.4 optiskās teksta atpazīšanas sistēmas izlaidums, kas atbalsta UTF-8 rakstzīmju un tekstu atpazīšanu vairāk nekā 100 valodās, tostarp krievu, kazahu, baltkrievu un ukraiņu valodā. Rezultātu var saglabāt vienkāršā tekstā vai HTML (hOCR), ALTO (XML), PDF un TSV formātos. Sistēma sākotnēji tika izveidota 1985.-1995.gadā Hewlett Packard laboratorijā, 2005.gadā kods tika atvērts saskaņā ar Apache licenci un tika tālāk pilnveidots, piedaloties Google darbiniekiem. Projekta pirmkods tiek izplatīts saskaņā ar Apache 2.0 licenci.

Tesseract ietver konsoles utilītu un libtesseract bibliotēku OCR funkcionalitātes iegulšanai citās lietojumprogrammās. Trešās puses GUI saskarnēs, kas atbalsta Tesseract, ietilpst gImageReader, VietOCR un YAGF. Tiek piedāvāti divi atpazīšanas dzinēji: klasiskais, kas atpazīst tekstu atsevišķu rakstzīmju modeļu līmenī, un jauns, kura pamatā ir mašīnmācīšanās sistēmas izmantošana, kuras pamatā ir LSTM atkārtots neironu tīkls, kas optimizēts veselu virkņu atpazīšanai un ļauj ievērojams precizitātes pieaugums. Ir publicēti gatavi apmācīti modeļi 123 valodās. Lai optimizētu veiktspēju, tiek piedāvāti moduļi, kas izmanto OpenMP un SIMD instrukcijas AVX2, AVX, AVX512F, NEON vai SSE4.1.

Galvenie uzlabojumi:

  • Uzlabota attēlu atpazīšana pēc URL ar failu lejupielādi, izmantojot libcurl bibliotēku. Ielādējot, tiek iestatīta User-Agent galvene. Pievienots jauns parametrs curl_cookiefile sīkfaila izmantošanai.
  • ScrollView serveris izmanto TCP kā vēlamo protokolu.
  • Izmantojot komandu "combine_tessdata -d", izvade tiek nodrošināta stdout, nevis stderr.
  • Novērstas veidošanas problēmas, izmantojot autoconf un clang.

Avots: opennet.ru

Pievieno komentāru