Liberazione di u sistema di ricunniscenza di testu Tesseract 5.3.4

A liberazione di u sistema di ricunniscenza di u testu otticu Tesseract 5.3.4 hè stata publicata, chì sustene a ricunniscenza di caratteri UTF-8 è testi in più di 100 lingue, cumprese russa, kazakh, bielorussu è ucrainu. U risultatu pò esse salvatu sia in testu chjaru sia in formati HTML (hOCR), ALTO (XML), PDF è TSV. In principiu, u sistema hè statu creatu in 1985-1995 in u laboratoriu di Hewlett Packard, in u 2005 u codice hè statu apertu sottu a licenza Apache è più sviluppatu cù a participazione di l'impiegati di Google. I testi surghjenti di u prugettu sò distribuiti sottu a licenza Apache 2.0.

Tesseract include una utilità di cunsola è a libreria libtesseract per incrustà a funziunalità OCR in altre applicazioni. Interfacce GUI di terze parti chì supportanu Tesseract include gImageReader, VietOCR è YAGF. Dui mutori di ricunniscenza sò offerti: un classicu chì ricunnosce u testu à u livellu di mudelli di caratteri individuali, è un novu basatu annantu à l'usu di un sistema di apprendimentu machine basatu nantu à una rete neurale recurrente LSTM, ottimizzata per ricunnosce stringhe intere è chì permettenu un aumentu significativu di a precisione. I mudelli furmati pronti sò stati publicati per 123 lingue. Per ottimisà u rendiment, i moduli chì utilizanu OpenMP è SIMD instructions AVX2, AVX, AVX512F, NEON o SSE4.1 sò offerti.

Principali miglioramenti:

  • Ricunniscenza di l'imaghjini mejorata per URL cù u scaricamentu di u schedariu utilizendu a biblioteca libcurl. Quandu si carica, l'intestazione User-Agent hè stabilitu. Aggiuntu novu paràmetru curl_cookiefile per utilizà un schedariu di cookie.
  • U servitore ScrollView usa TCP cum'è u so protokollu preferitu.
  • Quandu si usa u cumandimu "combine_tessdata -d", l'output hè furnitu à stdout invece di stderr.
  • Risolti i prublemi di creazione quandu si usa l'autoconf è clang.

Source: opennet.ru

Add a comment