Апублікаваны рэліз сістэмы аптычнага распазнання тэксту Tesseract 5.2, якая падтрымлівае распазнаванне сімвалаў UTF-8 і тэкстаў на больш чым 100 мовах, уключаючы рускую, казахскую, беларускую і ўкраінскую. Вынік можа захоўвацца як адчыненым тэкстам, так і ў фарматах HTML (hOCR), ALTO (XML), PDF і TSV. Першапачаткова сістэма была створана ў 1985-1995 гадах у лабараторыі кампаніі Hewlett Packard, у 2005 годзе код быў адчынены пад ліцэнзіяй Apache і ў далейшым развіваўся пры ўдзеле працаўнікоў кампаніі Google. Зыходныя тэксты праекту распаўсюджваюцца пад ліцэнзіяй Apache 2.0.
Tesseract уключае ў сябе кансольную ўтыліту і бібліятэку libtesseract для ўбудавання функцый распазнання тэксту ў іншыя прыкладанні. З якія падтрымліваюць Tesseract іншых GUI-інтэрфейсаў можна адзначыць gImageReader, VietOCR і YAGF. Прапануецца два рухавічкі распазнання: класічны, які распазнае тэкст на ўзроўні шаблонаў асобных знакаў, і новы, які базуецца на ўжыванні сістэмы машыннага навучання на базе рэкурэнтнай нейронавай сеткі LSTM, аптымізаванай для распазнання цалкам радкоў і якая дазваляе дамагчыся істотнага павелічэння дакладнасці. Гатовыя натрэніраваныя мадэлі апублікаваны для 123 моў. Для аптымізацыі прадукцыйнасці прапануюцца модулі, якія выкарыстоўваюць OpenMP і SIMD-інструкцый AVX2, AVX, AVX512F, NEON ці SSE4.1.
Асноўныя паляпшэнні ў Tesseract 5.2:
- Дададзеныя аптымізацыі, рэалізаваныя з выкарыстаннем інструкцый Intel AVX512F.
- У C API рэалізавана функцыя для ініцыялізацыі tesseract з загрузкай з памяці мадэлі машыннага навучання.
- Дададзены параметр invert_threshold, які вызначае ўзровень інвертавання тэкставых радкоў. Па змаўчанні выстаўлена значэнне 0.7. Для адключэння інвертавання трэба выставіць значэнне 0.
- Наладжана апрацоўка вельмі вялікіх дакументаў на 32-разрадных хастах.
- Ажыццёўлены пераход з выкарыстання функцый std::regex на std::string.
- Палепшаны зборачныя сцэнары для Autotools, CMake і сістэм бесперапыннай інтэграцыі.
Крыніца: opennet.ru