Teksto atpažinimo sistemos Tesseract 5.0 išleidimas

Paskelbtas Tesseract 4.1 optinio teksto atpažinimo sistemos leidimas, palaikantis UTF-8 simbolių ir tekstų atpažinimą daugiau nei 100 kalbų, įskaitant rusų, kazachų, baltarusių ir ukrainiečių. Rezultatas gali būti išsaugotas paprastu tekstu arba HTML (hOCR), ALTO (XML), PDF ir TSV formatais. Iš pradžių sistema buvo sukurta 1985–1995 m. Hewlett Packard laboratorijoje, o 2005 m. kodas buvo atidarytas pagal Apache licenciją ir buvo toliau tobulinamas dalyvaujant „Google“ darbuotojams. Projekto šaltinio kodas platinamas pagal Apache 2.0 licenciją.

„Tesseract“ apima konsolės programą ir „libtesseract“ biblioteką, skirtą OCR funkcijoms įterpti į kitas programas. Trečiųjų šalių GUI sąsajos, palaikančios Tesseract, apima gImageReader, VietOCR ir YAGF. Siūlomi du atpažinimo varikliai: klasikinis, atpažįstantis tekstą atskirų simbolių modelių lygiu, ir naujas, pagrįstas mašininio mokymosi sistema, pagrįsta LSTM pasikartojančiu neuroniniu tinklu, optimizuota atpažinti visas eilutes ir leidžianti reikšmingas tikslumo padidėjimas. Paruošti apmokyti modeliai buvo paskelbti 123 kalbomis. Siekiant optimizuoti našumą, siūlomi moduliai naudojant OpenMP ir SIMD instrukcijas AVX2, AVX, NEON arba SSE4.1.

Pagrindiniai Tesseact 5.0 patobulinimai:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    Šaltinis: opennet.ru

Добавить комментарий