Ebipụtala ntọhapụ nke Tesseract 5.1 optical text recognition system, na-akwado nnabata nke mkpụrụedemede UTF-8 na ederede n'ihe karịrị asụsụ 100, gụnyere Russian, Kazakh, Belarusian na Ukrainian. Enwere ike ịchekwa nsonaazụ ya na ederede doro anya ma ọ bụ na HTML (hOCR), ALTO (XML), PDF na TSV. Emebere usoro a na 1985-1995 na ụlọ nyocha Hewlett Packard; na 2005, emepere koodu ahụ n'okpuru ikike Apache wee mepụta ya na ntinye aka nke ndị ọrụ Google. A na-ekesa koodu isi mmalite nke ọrụ ahụ n'okpuru ikike Apache 2.0.
Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.
Основные улучшения в Tesseract 5.1:
- Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
- Добавлен новый параметр curl_timeout lkz curl_easy_setop.
- Sistemụ nrụpụta emelitere.
- Проведена работа по удалению неиспользуемого кода
- Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.
isi: opennet.ru