Издавање система за препознавање текста Тессерацт 5.0

Објављено је издање Тессерацт 4.1 оптичког система за препознавање текста који подржава препознавање УТФ-8 знакова и текстова на више од 100 језика, укључујући руски, казахстански, белоруски и украјински. Резултат се може сачувати у обичном тексту или у ХТМЛ (хОЦР), АЛТО (КСМЛ), ПДФ и ТСВ форматима. Систем је првобитно креиран 1985-1995 у лабораторији Хевлетт Пацкард, 2005. године код је отворен под лиценцом Апацхе и даље је развијен уз учешће запослених у Гуглу. Изворни код пројекта се дистрибуира под лиценцом Апацхе 2.0.

Тессерацт укључује услужни програм за конзолу и библиотеку либтессерацт за уграђивање ОЦР функционалности у друге апликације. ГУИ интерфејси треће стране који подржавају Тессерацт укључују гИмагеРеадер, ВиетОЦР и ИАГФ. Нуде се два механизма за препознавање: класични који препознаје текст на нивоу појединачних образаца карактера и нови заснован на коришћењу система машинског учења заснованог на ЛСТМ рекурентној неуронској мрежи, оптимизован за препознавање целих низова и омогућава значајно повећање тачности. Готови обучени модели су објављени за 123 језика. За оптимизацију перформанси, понуђени су модули који користе ОпенМП и СИМД инструкције АВКС2, АВКС, НЕОН или ССЕ4.1.

Главна побољшања у Тессерацт 5.0:

  • Значајна промена у броју верзије је због промена направљених у АПИ-ју које нарушавају компатибилност. Конкретно, јавно доступни либтессерацт АПИ више није везан за власничке типове података ГенерицВецтор и СТРИНГ, у корист стд::стринг и стд::вецтор.
  • Стабло изворног текста је реорганизовано. Јавне датотеке заглавља су премештене у директоријум инцлуде/тессерацт.
  • Управљање меморијом је редизајнирано, сви маллоц и бесплатни позиви су замењени Ц++ кодом. Извршена је општа модернизација кодекса.
  • Додате оптимизације за АРМ и АРМ64 архитектуре; АРМ НЕОН инструкције се користе за убрзавање прорачуна. Оптимизација перформанси заједничка за све архитектуре је спроведена.
  • Имплементирани су нови модови за моделе обуке и препознавање текста засновани на коришћењу прорачуна са плутајућим зарезом. Нови режими нуде веће перформансе и мању потрошњу меморије. У ЛСТМ машини, брзи режим флоат32 је подразумевано омогућен.
  • Направљен је прелазак на коришћење Уницоде нормализације користећи НФЦ (Нормализатион Форм Цаноницал) форму.
  • Додата је опција за конфигурисање детаља дневника (--логлевел).
  • Систем изградње заснован на Аутотоолс-у је редизајниран и пребачен на изградњу у нерекурзивном режиму.
  • "Мастер" грана у Гиту је преименована у "маин".
  • Додата подршка за нова издања мацОС и Аппле система заснованих на М1 чипу.

    Извор: опеннет.ру

Додај коментар