Текстти таануу системасынын чыгарылышы Tesseract 5.0

UTF-4.1 символдорун жана 8дөн ашык тилде, анын ичинде орус, казак, белорус жана украин тилдериндеги тексттерди таанууну колдогон Tesseract 100 оптикалык текстти таануу тутумунун релизи басылып чыкты. Натыйжа жөнөкөй текстте же HTML (hOCR), ALTO (XML), PDF жана TSV форматтарында сакталышы мүмкүн. Система алгач 1985-1995-жылдары Hewlett Packard лабораториясында түзүлгөн, 2005-жылы код Apache лицензиясынын алкагында ачылган жана андан ары Google кызматкерлеринин катышуусу менен иштелип чыккан. Долбоордун баштапкы коду Apache 2.0 лицензиясы боюнча таратылат.

Tesseract консолдук утилитаны жана OCR функциясын башка колдонмолорго киргизүү үчүн libtesseract китепканасын камтыйт. Tesseractти колдогон үчүнчү тараптын GUI интерфейстерине gImageReader, VietOCR жана YAGF кирет. Эки таануу кыймылдаткычы сунушталат: текстти жеке тамга үлгүлөрүнүн деңгээлинде тааныган классикалык жана LSTM кайталануучу нейрон тармагына негизделген машинаны үйрөнүү тутумун колдонууга негизделген жаңысы, бүт саптарды таануу үчүн оптималдаштырылган жана тактыгын олуттуу жогорулатуу. Даяр даярдалган моделдер 123 тилге чыгарылган. Ишти оптималдаштыруу үчүн OpenMP жана SIMD нускамаларын колдонгон модулдар AVX2, AVX, NEON же SSE4.1 сунушталат.

Tesseract 5.0деги негизги жакшыртуулар:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    Source: opennet.ru

Комментарий кошуу