Издавање система за препознавање текста Тессерацт 4.1

Припремљен ослобађање система за оптичко препознавање текста Тесеракт 4.1, подржава препознавање УТФ-8 знакова и текстова на више од 100 језика, укључујући руски, казахстански, белоруски и украјински. Резултат се може сачувати у обичном тексту или у ХТМЛ (хОЦР), АЛТО (КСМЛ), ПДФ и ТСВ форматима. Систем је првобитно креиран 1985-1995 у лабораторији Хевлетт Пацкард, 2005. године код је отворен под лиценцом Апацхе и даље је развијен уз учешће запослених у Гуглу. Извори пројекта ширење лиценциран под Апацхе 2.0.

Тессерацт укључује услужни програм за конзолу и библиотеку либтессерацт за уграђивање ОЦР функционалности у друге апликације. Од трећих страна које подржавају Тессерацт ГУИ интерфејси можете приметити гИмагеРеадер, ВиетОЦР и ИАГФ. Нуде се два механизма за препознавање: класични који препознаје текст на нивоу појединачних образаца карактера и нови заснован на коришћењу система машинског учења заснованог на ЛСТМ рекурентној неуронској мрежи, оптимизован за препознавање целих низова и омогућава значајно повећање тачности. Готови обучени модели се објављују за 123 језика. За оптимизацију перформанси, понуђени су модули који користе ОпенМП и АВКС2, АВКС или ССЕ4.1 СИМД инструкције.

Главни побољшања у Тессерацт 4.1:

  • Додата могућност излаза у КСМЛ формату АЛТО (Анализирани изглед и текстуални објекат). Да бисте користили овај формат, требало би да покренете апликацију као „тессарацт имаге_наме алто оутпут_дир“;
  • Додати нови модули за рендеровање ЛСТМБок и ВордСтрБок, поједностављујући обуку мотора;
  • Додата подршка за псеудографију у хОЦР (ХТМЛ) излазу;
  • Додате алтернативне скрипте написане у Питхон-у за обуку мотора заснованог на машинском учењу;
  • Проширене оптимизације коришћењем АВКС, АВКС2 и ССЕ инструкција;
  • Подршка за ОпенМП је подразумевано онемогућена због проблеми са продуктивношћу;
  • Додата подршка за беле и црне листе у ЛСТМ машини;
  • Побољшане скрипте за прављење засноване на Цмаке-у.

Извор: опеннет.ру

Додај коментар