Liberazione di u sistema di ricunniscenza di testu Tesseract 5.2

A liberazione di u sistema di ricunniscenza di u testu otticu Tesseract 5.2 hè stata publicata, chì sustene a ricunniscenza di caratteri UTF-8 è testi in più di 100 lingue, cumprese russa, kazakh, bielorussu è ucrainu. U risultatu pò esse salvatu sia in testu chjaru sia in formati HTML (hOCR), ALTO (XML), PDF è TSV. In principiu, u sistema hè statu creatu in 1985-1995 in u laboratoriu di Hewlett Packard, in u 2005 u codice hè statu apertu sottu a licenza Apache è più sviluppatu cù a participazione di l'impiegati di Google. I testi surghjenti di u prugettu sò distribuiti sottu a licenza Apache 2.0.

Tesseract include una utilità di cunsola è a libreria libtesseract per incrustà a funziunalità OCR in altre applicazioni. Interfacce GUI di terze parti chì supportanu Tesseract include gImageReader, VietOCR è YAGF. Dui mutori di ricunniscenza sò offerti: un classicu chì ricunnosce u testu à u livellu di mudelli di caratteri individuali, è un novu basatu annantu à l'usu di un sistema di apprendimentu machine basatu nantu à una rete neurale recurrente LSTM, ottimizzata per ricunnosce stringhe intere è chì permettenu un aumentu significativu di a precisione. I mudelli furmati pronti sò stati publicati per 123 lingue. Per ottimisà u rendiment, i moduli chì utilizanu OpenMP è SIMD instructions AVX2, AVX, AVX512F, NEON o SSE4.1 sò offerti.

Migliuramenti chjave in Tesseract 5.2:

  • Ottimisazioni aghjunte implementate cù l'istruzzioni Intel AVX512F.
  • L'API C implementa una funzione per inizializà tesseract cù a carica di un mudellu d'apprendimentu automaticu da a memoria.
  • Aggiuntu u paràmetru invert_threshold, chì determina u livellu d'inversione di strings di testu. U valore predeterminatu hè 0.7. Per disattivà l'inversione, stabilisce u valore à 0.
  • Trattamentu migliuratu di documenti assai grande nantu à host 32-bit.
  • A transizione hè stata fatta da l'usu di funzioni std::regex à std::string.
  • Scripts di creazione mejorati per Autotools, CMake è sistemi di integrazione cuntinuu.

    Source: opennet.ru

Add a comment