Lansarea sistemului de recunoaștere a textului Tesseract 5.1

A fost publicată lansarea sistemului optic de recunoaștere a textului Tesseract 5.1, care acceptă recunoașterea caracterelor UTF-8 și a textelor în peste 100 de limbi, inclusiv rusă, kazahă, belarusă și ucraineană. Rezultatul poate fi salvat în text simplu sau în formate HTML (hOCR), ALTO (XML), PDF și TSV. Sistemul a fost creat inițial în 1985-1995 în laboratorul Hewlett Packard; în 2005, codul a fost deschis sub licența Apache și a fost dezvoltat în continuare cu participarea angajaților Google. Codul sursă al proiectului este distribuit sub licența Apache 2.0.

Tesseract include un utilitar de consolă și biblioteca libtesseract pentru încorporarea funcționalității OCR în alte aplicații. Interfețele GUI de la terțe părți care acceptă Tesseract includ gImageReader, VietOCR și YAGF. Sunt oferite două motoare de recunoaștere: unul clasic care recunoaște textul la nivelul tiparelor individuale de caractere și unul nou bazat pe utilizarea unui sistem de învățare automată bazat pe o rețea neuronală recurentă LSTM, optimizată pentru recunoașterea șirurilor întregi și care permite o creștere semnificativă a preciziei. Au fost publicate modele pregătite pregătite pentru 123 de limbi. Pentru a optimiza performanța, sunt oferite module care utilizează instrucțiunile OpenMP și SIMD AVX2, AVX, NEON sau SSE4.1.

Îmbunătățiri majore în Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Sistem de construcție îmbunătățit.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Sursa: opennet.ru

Adauga un comentariu