Објавување на системот за препознавање текст Tesseract 5.1

Објавено е издавањето на системот за оптичко препознавање текст Tesseract 5.1, кој поддржува препознавање на UTF-8 знаци и текстови на повеќе од 100 јазици, вклучувајќи руски, казахстански, белоруски и украински. Резултатот може да се зачува во обичен текст или во формати HTML (hOCR), ALTO (XML), PDF и TSV. Системот првично беше создаден во 1985-1995 година во лабораторијата Хјулит Пакард; во 2005 година, кодот беше отворен под лиценцата Apache и беше дополнително развиен со учество на вработените на Google. Изворниот код на проектот е дистрибуиран под лиценцата Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Основные улучшения в Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Подобрен систем за градење.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Извор: opennet.ru

Додадете коментар