Lëshimi i sistemit të njohjes së tekstit Tesseract 5.0

Është publikuar lëshimi i sistemit optik të njohjes së tekstit Tesseract 4.1, i cili mbështet njohjen e karaktereve dhe teksteve UTF-8 në më shumë se 100 gjuhë, duke përfshirë rusishten, kazakishten, bjellorusishten dhe ukrainishten. Rezultati mund të ruhet në tekst të thjeshtë ose në formate HTML (hOCR), ALTO (XML), PDF dhe TSV. Sistemi u krijua fillimisht në 1985-1995 në laboratorin Hewlett Packard; në 2005, kodi u hap nën licencën Apache dhe u zhvillua më tej me pjesëmarrjen e punonjësve të Google. Kodi burimor i projektit shpërndahet nën licencën Apache 2.0.

Tesseract përfshin një mjet konsole dhe bibliotekën libtesseract për futjen e funksionalitetit OCR në aplikacione të tjera. Ndërfaqet GUI të palëve të treta që mbështesin Tesseract përfshijnë gImageReader, VietOCR dhe YAGF. Ofrohen dy motorë njohjeje: një klasik që njeh tekstin në nivelin e modeleve individuale të karaktereve dhe një i ri i bazuar në përdorimin e një sistemi të mësimit të makinës bazuar në një rrjet nervor LSTM, i optimizuar për njohjen e vargjeve të tëra dhe duke lejuar një rritje e ndjeshme e saktësisë. Modele të gatshme të trajnuara janë publikuar për 123 gjuhë. Për të optimizuar performancën, ofrohen module që përdorin udhëzimet OpenMP dhe SIMD AVX2, AVX, NEON ose SSE4.1.

Përmirësime të mëdha në Tesseract 5.0:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    Burimi: opennet.ru

Shto një koment