Hoʻokuʻu ʻia o ka ʻōnaehana ʻike kikokikona Tesseract 5.2

Ua paʻi ʻia ka hoʻokuʻu ʻana o Tesseract 5.2 optical text recognition system, e kākoʻo ana i ka ʻike ʻana i nā huaʻōlelo UTF-8 a me nā kikokikona ma mua o 100 mau ʻōlelo, me ka Russian, Kazakh, Belarusian a me Ukrainian. Hiki ke mālama ʻia ka hopena ma ka kikokikona maʻamau a i ʻole HTML (hOCR), ALTO (XML), PDF a me nā palapala TSV. Ua hoʻokumu mua ʻia ka ʻōnaehana ma 1985-1995 i ka hale hana Hewlett Packard; ma 2005, ua wehe ʻia ke code ma lalo o ka laikini Apache a ua hoʻomohala hou ʻia me ke komo ʻana o nā limahana Google. Hāʻawi ʻia ke kumu kumu o ka papahana ma lalo o ka laikini Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, AVX512F, NEON или SSE4.1.

Nā hoʻomaikaʻi nui ma Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka