Vydanie systému rozpoznávania textu Tesseract 5.0

Bolo zverejnené vydanie systému optického rozpoznávania textu Tesseract 4.1, ktorý podporuje rozpoznávanie znakov a textov UTF-8 vo viac ako 100 jazykoch vrátane ruštiny, kazaštiny, bieloruštiny a ukrajinčiny. Výsledok je možné uložiť ako obyčajný text alebo vo formátoch HTML (hOCR), ALTO (XML), PDF a TSV. Systém pôvodne vznikol v rokoch 1985-1995 v laboratóriu Hewlett Packard, v roku 2005 bol kód otvorený pod licenciou Apache a ďalej sa vyvíjal za účasti zamestnancov Google. Zdrojový kód projektu je šírený pod licenciou Apache 2.0.

Tesseract obsahuje pomôcku konzoly a knižnicu libtesseract na zabudovanie funkcií OCR do iných aplikácií. Rozhrania GUI tretích strán, ktoré podporujú Tesseract, zahŕňajú gImageReader, VietOCR a YAGF. Ponúkajú sa dva rozpoznávacie motory: klasický, ktorý rozpoznáva text na úrovni jednotlivých vzorov znakov, a nový založený na použití systému strojového učenia založeného na rekurentnej neurónovej sieti LSTM, optimalizovaný na rozpoznávanie celých reťazcov a umožňujúci výrazné zvýšenie presnosti. Hotové trénované modely boli publikované pre 123 jazykov. Pre optimalizáciu výkonu sú ponúkané moduly využívajúce OpenMP a SIMD inštrukcie AVX2, AVX, NEON alebo SSE4.1.

Hlavné vylepšenia v Tesseract 5.0:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    Zdroj: opennet.ru

Pridať komentár