Eisiúint an chórais aitheantais téacs Tesseract 5.1

Foilsíodh eisiúint an chórais aitheantais optúla téacs Tesseract 5.1, a thacaíonn le haithint carachtair agus téacsanna UTF-8 i níos mó ná 100 teanga, lena n-áirítear Rúisis, Casaicis, Bealarúisis agus Úcráinis. Is féidir an toradh a shábháil i ngnáth-théacs nó i bhformáidí HTML (HOCR), ALTO (XML), PDF agus TSV. Cruthaíodh an córas ar dtús i 1985-1995 i saotharlann Hewlett Packard; i 2005, osclaíodh an cód faoi cheadúnas Apache agus rinneadh é a fhorbairt tuilleadh le rannpháirtíocht fostaithe Google. Déantar cód foinse an tionscadail a dháileadh faoi cheadúnas Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Feabhsuithe móra ar Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Córas tógála feabhsaithe.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Foinse: oscailtenet.ru

Add a comment