Teksto atpažinimo sistemos Tesseract 5.1 išleidimas

Paskelbtas Tesseract 5.1 optinio teksto atpažinimo sistemos leidimas, palaikantis UTF-8 simbolių ir tekstų atpažinimą daugiau nei 100 kalbų, įskaitant rusų, kazachų, baltarusių ir ukrainiečių. Rezultatas gali būti išsaugotas paprastu tekstu arba HTML (hOCR), ALTO (XML), PDF ir TSV formatais. Iš pradžių sistema buvo sukurta 1985–1995 m. Hewlett Packard laboratorijoje, o 2005 m. kodas buvo atidarytas pagal Apache licenciją ir buvo toliau tobulinamas dalyvaujant „Google“ darbuotojams. Projekto šaltinio kodas platinamas pagal Apache 2.0 licenciją.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Pagrindiniai Tesseact 5.1 patobulinimai:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Patobulinta konstravimo sistema.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Šaltinis: opennet.ru

Добавить комментарий