Издавање система за препознавање текста Тессерацт 5.1

Објављено је издање Тессерацт 5.1 оптичког система за препознавање текста који подржава препознавање УТФ-8 знакова и текстова на више од 100 језика, укључујући руски, казахстански, белоруски и украјински. Резултат се може сачувати у обичном тексту или у ХТМЛ (хОЦР), АЛТО (КСМЛ), ПДФ и ТСВ форматима. Систем је првобитно креиран 1985-1995 у лабораторији Хевлетт Пацкард, 2005. године код је отворен под лиценцом Апацхе и даље је развијен уз учешће запослених у Гуглу. Изворни код пројекта се дистрибуира под лиценцом Апацхе 2.0.

Тессерацт укључује услужни програм за конзолу и библиотеку либтессерацт за уграђивање ОЦР функционалности у друге апликације. ГУИ интерфејси треће стране који подржавају Тессерацт укључују гИмагеРеадер, ВиетОЦР и ИАГФ. Нуде се два механизма за препознавање: класични који препознаје текст на нивоу појединачних образаца карактера и нови заснован на коришћењу система машинског учења заснованог на ЛСТМ рекурентној неуронској мрежи, оптимизован за препознавање целих низова и омогућава значајно повећање тачности. Готови обучени модели су објављени за 123 језика. За оптимизацију перформанси, понуђени су модули који користе ОпенМП и СИМД инструкције АВКС2, АВКС, НЕОН или ССЕ4.1.

Главна побољшања у Тессерацт 5.1:

  • Имплементирана је могућност обраде површина са сликама и линијама при излазу у АЛТО, хОЦР и текстуалним форматима.
  • Додат је нови параметар цурл_тимеоут лкз цурл_еаси_сетоп.
  • Побољшан систем изградње.
  • Радови су обављени на уклањању неискоришћеног кода
  • Исправљени су падови узроковани нетачним руковањем нул показивачима у класи ПагеИтератор::Ориентатион.

Извор: опеннет.ру

Додај коментар