Teksta atpazīšanas sistēmas Tesseract izlaišana 5.2

Ir publicēts Tesseract 5.2 optiskās teksta atpazīšanas sistēmas izlaidums, kas atbalsta UTF-8 rakstzīmju un tekstu atpazīšanu vairāk nekā 100 valodās, tostarp krievu, kazahu, baltkrievu un ukraiņu valodā. Rezultātu var saglabāt vienkāršā tekstā vai HTML (hOCR), ALTO (XML), PDF un TSV formātos. Sistēma sākotnēji tika izveidota 1985.-1995.gadā Hewlett Packard laboratorijā, 2005.gadā kods tika atvērts saskaņā ar Apache licenci un tika tālāk pilnveidots, piedaloties Google darbiniekiem. Projekta pirmkods tiek izplatīts saskaņā ar Apache 2.0 licenci.

Tesseract ietver konsoles utilītu un libtesseract bibliotēku OCR funkcionalitātes iegulšanai citās lietojumprogrammās. Trešās puses GUI saskarnēs, kas atbalsta Tesseract, ietilpst gImageReader, VietOCR un YAGF. Tiek piedāvāti divi atpazīšanas dzinēji: klasiskais, kas atpazīst tekstu atsevišķu rakstzīmju modeļu līmenī, un jauns, kura pamatā ir mašīnmācīšanās sistēmas izmantošana, kuras pamatā ir LSTM atkārtots neironu tīkls, kas optimizēts veselu virkņu atpazīšanai un ļauj ievērojams precizitātes pieaugums. Ir publicēti gatavi apmācīti modeļi 123 valodās. Lai optimizētu veiktspēju, tiek piedāvāti moduļi, kas izmanto OpenMP un SIMD instrukcijas AVX2, AVX, AVX512F, NEON vai SSE4.1.

Lielākie Tesseract 5.2 uzlabojumi:

  • Pievienotas optimizācijas, kas ieviestas, izmantojot Intel AVX512F instrukcijas.
  • C API īsteno funkciju, lai inicializētu tesseraktu, ielādējot mašīnmācīšanās modeli no atmiņas.
  • Pievienots parametrs invert_threshold, kas nosaka teksta virkņu inversijas līmeni. Noklusējuma vērtība ir 0.7. Lai atspējotu inversiju, iestatiet vērtību uz 0.
  • Uzlabota ļoti lielu dokumentu apstrāde 32 bitu resursdatoros.
  • Ir veikta pāreja no funkciju std::regex izmantošanas uz std::string.
  • Uzlaboti skripti Autotools, CMake un nepārtrauktas integrācijas sistēmām.

    Avots: opennet.ru

Pievieno komentāru