🥇Libera di u sistema di ricunniscenza di testu Tesseract 5.1

A liberazione di u sistema di ricunniscenza di u testu otticu Tesseract 5.1 hè stata publicata, chì sustene a ricunniscenza di caratteri UTF-8 è testi in più di 100 lingue, cumprese russa, kazakh, bielorussu è ucrainu. U risultatu pò esse salvatu sia in testu chjaru sia in formati HTML (hOCR), ALTO (XML), PDF è TSV. In principiu, u sistema hè statu creatu in 1985-1995 in u laboratoriu di Hewlett Packard, in u 2005 u codice hè statu apertu sottu a licenza Apache è più sviluppatu cù a participazione di l'impiegati di Google. I testi surghjenti di u prugettu sò distribuiti sottu a licenza Apache 2.0.

Tesseract include una utilità di cunsola è a libreria libtesseract per incrustà a funziunalità OCR in altre applicazioni. Interfacce GUI di terze parti chì supportanu Tesseract include gImageReader, VietOCR è YAGF. Dui mutori di ricunniscenza sò offerti: un classicu chì ricunnosce u testu à u livellu di mudelli di caratteri individuali, è un novu basatu annantu à l'usu di un sistema di apprendimentu machine basatu nantu à una rete neurale recurrente LSTM, ottimizzata per ricunnosce stringhe intere è chì permettenu un aumentu significativu di a precisione. I mudelli furmati pronti sò stati publicati per 123 lingue. Per ottimisà u rendiment, i moduli chì utilizanu OpenMP è SIMD instructions AVX2, AVX, NEON o SSE4.1 sò offerti.

Migliuramenti chjave in Tesseract 5.1:

Hè stata implementata a capacità di processà e zoni cù l'imaghjini è e linee quandu si produce in ALTO, hOCR è formati di testu.
Aggiuntu novu paràmetru curl_timeout lkz curl_easy_setop.
Sistema di custruzzione migliuratu.
U travagliu hè statu fattu per sguassà u codice inutilizatu
Fixed crashes causati da una manipulazione incorrecta di puntatori nulli in a classe PageIterator::Orientation.

Source: opennet.ru

Liberazione di u sistema di ricunniscenza di testu Tesseract 5.1

ProHoster