Lansarea sistemului de recunoaștere a textului Tesseract 5.0

A fost publicată lansarea sistemului optic de recunoaștere a textului Tesseract 4.1, care acceptă recunoașterea caracterelor UTF-8 și a textelor în peste 100 de limbi, inclusiv rusă, kazahă, belarusă și ucraineană. Rezultatul poate fi salvat în text simplu sau în formate HTML (hOCR), ALTO (XML), PDF și TSV. Sistemul a fost creat inițial în 1985-1995 în laboratorul Hewlett Packard; în 2005, codul a fost deschis sub licența Apache și a fost dezvoltat în continuare cu participarea angajaților Google. Codul sursă al proiectului este distribuit sub licența Apache 2.0.

Tesseract include un utilitar de consolă și biblioteca libtesseract pentru încorporarea funcționalității OCR în alte aplicații. Interfețele GUI de la terțe părți care acceptă Tesseract includ gImageReader, VietOCR și YAGF. Sunt oferite două motoare de recunoaștere: unul clasic care recunoaște textul la nivelul tiparelor individuale de caractere și unul nou bazat pe utilizarea unui sistem de învățare automată bazat pe o rețea neuronală recurentă LSTM, optimizată pentru recunoașterea șirurilor întregi și care permite o creștere semnificativă a preciziei. Au fost publicate modele pregătite pregătite pentru 123 de limbi. Pentru a optimiza performanța, sunt oferite module care utilizează instrucțiunile OpenMP și SIMD AVX2, AVX, NEON sau SSE4.1.

Îmbunătățiri majore în Tesseract 5.0:

  • O modificare semnificativă a numărului de versiune se datorează modificărilor aduse API-ului care întrerup compatibilitatea. În special, API-ul libtesseract disponibil public nu mai este legat de tipurile de date proprietare GenericVector și STRING, în favoarea std::string și std::vector.
  • Arborele textului sursă a fost reorganizat. Fișierele de antet publice au fost mutate în directorul include/tesseract.
  • Gestionarea memoriei a fost reproiectată, toate apelurile malloc și gratuite au fost înlocuite cu cod C++. A fost efectuată o modernizare generală a codului.
  • Optimizări adăugate pentru arhitecturile ARM și ARM64; instrucțiunile ARM NEON sunt folosite pentru a accelera calculele. S-a realizat optimizarea performanței comună tuturor arhitecturilor.
  • Au fost implementate noi moduri pentru modelele de antrenament și recunoașterea textului bazate pe utilizarea calculelor în virgulă mobilă. Noile moduri oferă performanțe mai mari și un consum mai mic de memorie. În motorul LSTM, modul rapid float32 este activat implicit.
  • S-a făcut o tranziție la utilizarea normalizării Unicode utilizând formularul NFC (Normalization Form Canonical).
  • S-a adăugat o opțiune pentru a configura detaliile jurnalului (--loglevel).
  • Sistemul de construire bazat pe Autotools a fost reproiectat și schimbat pentru a construi în mod non-recursiv.
  • Ramura „master” din Git a fost redenumită „principală”.
  • S-a adăugat suport pentru noile versiuni ale sistemelor macOS și Apple bazate pe cipul M1.

    Sursa: opennet.ru

Adauga un comentariu