Објављено је издање Тессерацт 5.3.4 оптичког система за препознавање текста који подржава препознавање УТФ-8 знакова и текстова на више од 100 језика, укључујући руски, казахстански, белоруски и украјински. Резултат се може сачувати у обичном тексту или у ХТМЛ (хОЦР), АЛТО (КСМЛ), ПДФ и ТСВ форматима. Систем је првобитно креиран 1985-1995 у лабораторији Хевлетт Пацкард, 2005. године код је отворен под лиценцом Апацхе и даље је развијен уз учешће запослених у Гуглу. Изворни код пројекта се дистрибуира под лиценцом Апацхе 2.0.
Тессерацт укључује услужни програм за конзолу и библиотеку либтессерацт за уграђивање ОЦР функционалности у друге апликације. ГУИ интерфејси треће стране који подржавају Тессерацт укључују гИмагеРеадер, ВиетОЦР и ИАГФ. Нуде се два механизма за препознавање: класични који препознаје текст на нивоу појединачних образаца карактера и нови заснован на коришћењу система машинског учења заснованог на ЛСТМ рекурентној неуронској мрежи, оптимизован за препознавање целих низова и омогућава значајно повећање тачности. Готови обучени модели су објављени за 123 језика. За оптимизацију перформанси, нуде се модули који користе ОпенМП и СИМД инструкције АВКС2, АВКС, АВКС512Ф, НЕОН или ССЕ4.1.
Главна побољшања:
- Побољшано препознавање слике по УРЛ-у са преузимањем датотеке помоћу библиотеке либцурл. Приликом учитавања поставља се заглавље Усер-Агент. Додат је нови параметар цурл_цоокиефиле за коришћење колачића.
- СцроллВиев сервер користи ТЦП као свој преферирани протокол.
- Када користите команду "цомбине_тессдата -д", излаз се обезбеђује стдоут уместо стдерр.
- Исправљени проблеми са градњом када користите аутоцонф и цланг.
Извор: опеннет.ру