Текстти таануу системасынын чыгарылышы Tesseract 5.1

UTF-5.1 символдорун жана 8дөн ашык тилде, анын ичинде орус, казак, белорус жана украин тилдериндеги тексттерди таанууну колдогон Tesseract 100 оптикалык текстти таануу тутумунун релизи басылып чыкты. Натыйжа жөнөкөй текстте же HTML (hOCR), ALTO (XML), PDF жана TSV форматтарында сакталышы мүмкүн. Система алгач 1985-1995-жылдары Hewlett Packard лабораториясында түзүлгөн, 2005-жылы код Apache лицензиясынын алкагында ачылган жана андан ары Google кызматкерлеринин катышуусу менен иштелип чыккан. Долбоордун баштапкы коду Apache 2.0 лицензиясы боюнча таратылат.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Основные улучшения в Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Жакшыртылган куруу системасы.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Source: opennet.ru

Комментарий кошуу