Објавување на системот за препознавање текст Tesseract 5.0

Објавено е издавањето на системот за оптичко препознавање текст Tesseract 4.1, кој поддржува препознавање на UTF-8 знаци и текстови на повеќе од 100 јазици, вклучувајќи руски, казахстански, белоруски и украински. Резултатот може да се зачува во обичен текст или во формати HTML (hOCR), ALTO (XML), PDF и TSV. Системот првично беше создаден во 1985-1995 година во лабораторијата Хјулит Пакард; во 2005 година, кодот беше отворен под лиценцата Apache и беше дополнително развиен со учество на вработените на Google. Изворниот код на проектот е дистрибуиран под лиценцата Apache 2.0.

Tesseract вклучува алатка за конзола и библиотека libtesseract за вградување на функционалноста на OCR во други апликации. Интерфејсите за GUI од трета страна кои поддржуваат Tesseract вклучуваат gImageReader, VietOCR и YAGF. Понудени се два мотори за препознавање: класичен кој препознава текст на ниво на индивидуални шаблони на знаци и нов базиран на употреба на систем за машинско учење базиран на рекурентна невронска мрежа LSTM, оптимизиран за препознавање цели низи и овозможува значително зголемување на точноста. Објавени се готови обучени модели за 123 јазици. За да се оптимизираат перформансите, се нудат модули кои користат OpenMP и SIMD инструкции AVX2, AVX, NEON или SSE4.1.

Големи подобрувања во Tesseract 5.0:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    Извор: opennet.ru

Додадете коментар