🥇Релиз системы распознавания текста Tesseract 4.1

Valmistatud релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта jaotatakse ainekood on litsentsitud Apache 2.0 all.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR ja YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Peamised parandused в Tesseract 4.1:

Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как «tessaract имя_изображения каталог_вывода alto»;
Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
Добавлена поддержка псевдографики в выводе hOCR (HTML);
Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
По умолчанию отключена поддержка OpenMP из-за probleemide с производительностью;
В движке LSTM добавлена поддержка белых и чёрных списков;
Улучшены сборочные сценарии на базе Cmake.

Allikas: opennet.ru

Tesseract 4.1 tekstituvastussüsteemi väljaanne