Издавање система за препознавање текста Тессерацт 5.3.4

Објављено је издање Тессерацт 5.3.4 оптичког система за препознавање текста који подржава препознавање УТФ-8 знакова и текстова на више од 100 језика, укључујући руски, казахстански, белоруски и украјински. Резултат се може сачувати у обичном тексту или у ХТМЛ (хОЦР), АЛТО (КСМЛ), ПДФ и ТСВ форматима. Систем је првобитно креиран 1985-1995 у лабораторији Хевлетт Пацкард, 2005. године код је отворен под лиценцом Апацхе и даље је развијен уз учешће запослених у Гуглу. Изворни код пројекта се дистрибуира под лиценцом Апацхе 2.0.

Тессерацт укључује услужни програм за конзолу и библиотеку либтессерацт за уграђивање ОЦР функционалности у друге апликације. ГУИ интерфејси треће стране који подржавају Тессерацт укључују гИмагеРеадер, ВиетОЦР и ИАГФ. Нуде се два механизма за препознавање: класични који препознаје текст на нивоу појединачних образаца карактера и нови заснован на коришћењу система машинског учења заснованог на ЛСТМ рекурентној неуронској мрежи, оптимизован за препознавање целих низова и омогућава значајно повећање тачности. Готови обучени модели су објављени за 123 језика. За оптимизацију перформанси, нуде се модули који користе ОпенМП и СИМД инструкције АВКС2, АВКС, АВКС512Ф, НЕОН или ССЕ4.1.

Главна побољшања:

  • Побољшано препознавање слике по УРЛ-у са преузимањем датотеке помоћу библиотеке либцурл. Приликом учитавања поставља се заглавље Усер-Агент. Додат је нови параметар цурл_цоокиефиле за коришћење колачића.
  • СцроллВиев сервер користи ТЦП као свој преферирани протокол.
  • Када користите команду "цомбине_тессдата -д", излаз се обезбеђује стдоут уместо стдерр.
  • Исправљени проблеми са градњом када користите аутоцонф и цланг.

Извор: опеннет.ру

Додај коментар