Teksta atpazīšanas sistēmas Tesseract izlaišana 4.1

Sagatavots optiskās teksta atpazīšanas sistēmas izlaišana Tesseact 4.1, kas atbalsta UTF-8 rakstzīmju un tekstu atpazīšanu vairāk nekā 100 valodās, tostarp krievu, kazahu, baltkrievu un ukraiņu valodā. Rezultātu var saglabāt vienkāršā tekstā vai HTML (hOCR), ALTO (XML), PDF un TSV formātos. Sistēma sākotnēji tika izveidota 1985.-1995.gadā Hewlett Packard laboratorijā, 2005.gadā kods tika atvērts saskaņā ar Apache licenci un tika tālāk pilnveidots, piedaloties Google darbiniekiem. Projekta avoti izplatīties licencēts saskaņā ar Apache 2.0.

Tesseract ietver konsoles utilītu un libtesseract bibliotēku OCR funkcionalitātes iegulšanai citās lietojumprogrammās. No trešajām pusēm, kas atbalsta Tesseact GUI saskarnes jūs varat atzīmēt gImageReader, VietOCR и YAGF. Tiek piedāvāti divi atpazīšanas dzinēji: klasiskais, kas atpazīst tekstu atsevišķu rakstzīmju modeļu līmenī, un jauns, kura pamatā ir mašīnmācīšanās sistēmas izmantošana, kuras pamatā ir LSTM atkārtots neironu tīkls, kas optimizēts veselu virkņu atpazīšanai un ļauj ievērojams precizitātes pieaugums. Tiek publicēti gatavi apmācīti modeļi 123 valodas. Lai optimizētu veiktspēju, tiek piedāvāti moduļi, kas izmanto OpenMP un AVX2, AVX vai SSE4.1 SIMD instrukcijas.

Galvenais uzlabojumi Tesseact 4.1:

  • Pievienota iespēja izvadīt XML formātā DAUDZ (Analizēts izkārtojums un teksta objekts). Lai izmantotu šo formātu, lietojumprogramma jāpalaiž kā “tessaract image_name alto output_dir”;
  • Pievienoti jauni renderēšanas moduļi LSTMBox un WordStrBox, vienkāršojot dzinēju apmācību;
  • Pievienots atbalsts pseidogrāfijai hOCR (HTML) izvadē;
  • Pievienoti alternatīvi Python rakstīti skripti, lai apmācītu dzinēju, pamatojoties uz mašīnmācību;
  • Paplašināta optimizācija, izmantojot AVX, AVX2 un SSE instrukcijas;
  • OpenMP atbalsts pēc noklusējuma ir atspējots, jo problēmas ar produktivitāti;
  • Pievienots balto un melno sarakstu atbalsts LSTM dzinējā;
  • Uzlaboti veidošanas skripti, kuru pamatā ir Cmake.

Avots: opennet.ru

Pievieno komentāru