Teksta atpazīšanas sistēmas Tesseract izlaišana 5.1

Ir publicēts Tesseract 5.1 optiskās teksta atpazīšanas sistēmas izlaidums, kas atbalsta UTF-8 rakstzīmju un tekstu atpazīšanu vairāk nekā 100 valodās, tostarp krievu, kazahu, baltkrievu un ukraiņu valodā. Rezultātu var saglabāt vienkāršā tekstā vai HTML (hOCR), ALTO (XML), PDF un TSV formātos. Sistēma sākotnēji tika izveidota 1985.-1995.gadā Hewlett Packard laboratorijā, 2005.gadā kods tika atvērts saskaņā ar Apache licenci un tika tālāk pilnveidots, piedaloties Google darbiniekiem. Projekta pirmkods tiek izplatīts saskaņā ar Apache 2.0 licenci.

Tesseract ietver konsoles utilītu un libtesseract bibliotēku OCR funkcionalitātes iegulšanai citās lietojumprogrammās. Trešās puses GUI saskarnēs, kas atbalsta Tesseract, ietilpst gImageReader, VietOCR un YAGF. Tiek piedāvāti divi atpazīšanas dzinēji: klasiskais, kas atpazīst tekstu atsevišķu rakstzīmju modeļu līmenī, un jauns, kura pamatā ir mašīnmācīšanās sistēmas izmantošana, kuras pamatā ir LSTM atkārtots neironu tīkls, kas optimizēts veselu virkņu atpazīšanai un ļauj ievērojams precizitātes pieaugums. Ir publicēti gatavi apmācīti modeļi 123 valodās. Lai optimizētu veiktspēju, tiek piedāvāti moduļi, kas izmanto OpenMP un SIMD instrukcijas AVX2, AVX, NEON vai SSE4.1.

Lielākie Tesseract 5.1 uzlabojumi:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Uzlabota veidošanas sistēma.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Avots: opennet.ru

Pievieno komentāru