Liberazione di u sistema di ricunniscenza di testu Tesseract 4.1

Preparatu liberazione di u sistema di ricunniscenza di testu otticu Tesserattu 4.1, chì sustene u ricunniscenza di caratteri UTF-8 è testi in più di 100 lingue, cumprese russu, kazako, bielorussu è ucrainu. U risultatu pò esse salvatu in testu chjaru o in formati HTML (hOCR), ALTO (XML), PDF è TSV. U sistema hè stata creata in u 1985-1995 in u laboratoriu Hewlett Packard; in u 2005, u codice hè statu apertu sottu a licenza Apache è hè statu sviluppatu ulteriormente cù a participazione di l'impiegati di Google. Fonti di prughjettu sparghje licenziatu sottu Apache 2.0.

Tesseract include una utilità di cunsola è a libreria libtesseract per incrustà a funziunalità OCR in altre applicazioni. Da terze parti chì sustene Tesseract Interfacce GUI pudete nutà gImageReader, VietOCR и YAGF. Dui mutori di ricunniscenza sò offerti: un classicu chì ricunnosce u testu à u livellu di mudelli di caratteri individuali, è un novu basatu annantu à l'usu di un sistema di apprendimentu machine basatu nantu à una rete neurale recurrente LSTM, ottimizzata per ricunnosce stringhe intere è chì permettenu un aumentu significativu di a precisione. I mudelli furmati pronti sò publicati per 123 lingue. Per ottimisà u rendiment, i moduli chì utilizanu OpenMP è AVX2, AVX o SSE4.1 SIMD instructions sò offerti.

menu migliurà in Tesseract 4.1:

  • Aggiunta a capacità di produzzione in u furmatu XML ALTO (Layout analizatu è ughjettu di testu). Per utilizà stu formatu, duvete eseguisce l'applicazione cum'è "tessaract image_name alto output_dir";
  • Aggiunti novi moduli di rendering LSTMBox è WordStrBox, simplificà a furmazione di u mutore;
  • Aghjunghje supportu per pseudografiche in output hOCR (HTML);
  • Aghjunghjite scripts alternativi scritti in Python per a furmazione di u mutore basatu annantu à l'apprendimentu machine;
  • Ottimisazioni ampliate cù l'istruzzioni AVX, AVX2 è SSE;
  • U supportu OpenMP hè disattivatu per difettu per via di prublemi cù a produtividade;
  • Aghjunghje supportu per listi bianchi è neri in u mutore LSTM;
  • Scripts di custruzzione migliurati basati nantu à Cmake.

Source: opennet.ru

Add a comment