Lansarea sistemului de recunoaștere a textului Tesseract 4.1

Pregătit lansarea sistemului optic de recunoaștere a textului Teseract 4.1, care acceptă recunoașterea caracterelor și textelor UTF-8 în peste 100 de limbi, inclusiv rusă, kazahă, belarusă și ucraineană. Rezultatul poate fi salvat în text simplu sau în formate HTML (hOCR), ALTO (XML), PDF și TSV. Sistemul a fost creat inițial în 1985-1995 în laboratorul Hewlett Packard; în 2005, codul a fost deschis sub licența Apache și a fost dezvoltat în continuare cu participarea angajaților Google. Sursele proiectului răspândire licențiat sub Apache 2.0.

Tesseract include un utilitar de consolă și biblioteca libtesseract pentru încorporarea funcționalității OCR în alte aplicații. De la terți care sprijină Tesseract interfețe GUI poti nota gImageReader, VietOCR и YAGF. Sunt oferite două motoare de recunoaștere: unul clasic care recunoaște textul la nivelul tiparelor individuale de caractere și unul nou bazat pe utilizarea unui sistem de învățare automată bazat pe o rețea neuronală recurentă LSTM, optimizată pentru recunoașterea șirurilor întregi și care permite o creștere semnificativă a preciziei. Sunt publicate modele pregătite gata făcute pentru 123 limbi. Pentru a optimiza performanța, sunt oferite module care utilizează instrucțiuni OpenMP și AVX2, AVX sau SSE4.1 SIMD.

Principalul îmbunătățiri în Teseract 4.1:

  • S-a adăugat capacitatea de a scoate în format XML HIGH (Aspect analizat și obiect text). Pentru a utiliza acest format, ar trebui să rulați aplicația ca „tessaract image_name alto output_dir”;
  • S-au adăugat noi module de randare LSTMBox și WordStrBox, simplificând antrenamentul motorului;
  • S-a adăugat suport pentru pseudografice în ieșirea hOCR (HTML);
  • S-au adăugat scripturi alternative scrise în Python pentru antrenarea motorului pe baza învățării automate;
  • Optimizări extinse folosind instrucțiunile AVX, AVX2 și SSE;
  • Suportul OpenMP este dezactivat implicit din cauza Probleme cu productivitate;
  • S-a adăugat suport pentru listele albe și negre în motorul LSTM;
  • Scripturi de compilare îmbunătățite bazate pe Cmake.

Sursa: opennet.ru

Adauga un comentariu