Выпуск сістэмы распазнання тэксту GNU Ocrad 0.28

Пасля трох гадоў з моманту мінулага выпуску сфарміраваны рэліз сістэмы распазнання тэксту Ocrad 0.28 (Optical Character Recognition), якая развіваецца пад эгідай праекту GNU. Ocrad можа прымяняцца як у форме бібліятэкі для інтэграцыі функцый OCR у іншыя прыкладанні, так і ў форме адасобленай утыліты, якая на аснове перададзенага на ўваход выявы выдае тэкст у UTF-8 або 8-бітных кадоўках.

Для аптычнага распазнання ў Ocrad выкарыстоўваецца метад вылучэнне прыкмет (feature extraction). У склад уваходзіць аналізатар макета старонкі, які дазваляе карэктна падзяляць слупкі і блокі тэксту ў друкаваных дакументах. Распазнанне падтрымліваецца толькі для сімвалаў з кадовак "ascii", "iso-8859-9" і "iso-8859-15" (падтрымка кірыліцы адсутнічае).

Адзначаецца, што ў новы выпуск уключана вялікая порцыя дробных выпраўленняў і паляпшэнняў. Найбольш значнай зменай стала падтрымка фармату малюнкаў PNG, рэалізаванага пры дапамозе бібліятэкі libpng, што значна спрасціла працу з праграмай, бо раней на ўваход маглі падавацца толькі выявы ў фарматах PNM.

Крыніца: opennet.ru

Дадаць каментар