Објављено је издање Тессерацт 5.1 оптичког система за препознавање текста који подржава препознавање УТФ-8 знакова и текстова на више од 100 језика, укључујући руски, казахстански, белоруски и украјински. Резултат се може сачувати у обичном тексту или у ХТМЛ (хОЦР), АЛТО (КСМЛ), ПДФ и ТСВ форматима. Систем је првобитно креиран 1985-1995 у лабораторији Хевлетт Пацкард, 2005. године код је отворен под лиценцом Апацхе и даље је развијен уз учешће запослених у Гуглу. Изворни код пројекта се дистрибуира под лиценцом Апацхе 2.0.
Тессерацт укључује услужни програм за конзолу и библиотеку либтессерацт за уграђивање ОЦР функционалности у друге апликације. ГУИ интерфејси треће стране који подржавају Тессерацт укључују гИмагеРеадер, ВиетОЦР и ИАГФ. Нуде се два механизма за препознавање: класични који препознаје текст на нивоу појединачних образаца карактера и нови заснован на коришћењу система машинског учења заснованог на ЛСТМ рекурентној неуронској мрежи, оптимизован за препознавање целих низова и омогућава значајно повећање тачности. Готови обучени модели су објављени за 123 језика. За оптимизацију перформанси, понуђени су модули који користе ОпенМП и СИМД инструкције АВКС2, АВКС, НЕОН или ССЕ4.1.
Главна побољшања у Тессерацт 5.1:
- Имплементирана је могућност обраде површина са сликама и линијама при излазу у АЛТО, хОЦР и текстуалним форматима.
- Додат је нови параметар цурл_тимеоут лкз цурл_еаси_сетоп.
- Побољшан систем изградње.
- Радови су обављени на уклањању неискоришћеног кода
- Исправљени су падови узроковани нетачним руковањем нул показивачима у класи ПагеИтератор::Ориентатион.
Извор: опеннет.ру