Rilascio del sistema di riconoscimento del testo Tesseract 5.3.4

È stato pubblicato il rilascio del sistema di riconoscimento ottico del testo Tesseract 5.3.4, che supporta il riconoscimento di caratteri e testi UTF-8 in più di 100 lingue, tra cui russo, kazako, bielorusso e ucraino. Il risultato può essere salvato in testo semplice o nei formati HTML (hOCR), ALTO (XML), PDF e TSV. Il sistema è stato originariamente creato nel 1985-1995 nel laboratorio Hewlett Packard, nel 2005 il codice è stato aperto sotto la licenza Apache e ulteriormente sviluppato con la partecipazione dei dipendenti di Google. Il codice sorgente del progetto è distribuito sotto la licenza Apache 2.0.

Tesseract include un'utilità console e la libreria libtesseract per incorporare la funzionalità OCR in altre applicazioni. Le interfacce GUI di terze parti che supportano Tesseract includono gImageReader, VietOCR e YAGF. Vengono offerti due motori di riconoscimento: uno classico che riconosce il testo a livello di singoli pattern di caratteri, ed uno nuovo basato sull'utilizzo di un sistema di machine learning basato su una rete neurale ricorrente LSTM, ottimizzato per riconoscere intere stringhe e consentire un aumento significativo della precisione. Sono stati pubblicati modelli addestrati già pronti per 123 lingue. Per ottimizzare le prestazioni, vengono offerti moduli che utilizzano istruzioni OpenMP e SIMD AVX2, AVX, AVX512F, NEON o SSE4.1.

Principali miglioramenti:

  • Riconoscimento delle immagini migliorato tramite URL con download di file utilizzando la libreria libcurl. Durante il caricamento, viene impostata l'intestazione User-Agent. Aggiunto nuovo parametro curl_cookiefile per l'utilizzo di un file cookie.
  • Il server ScrollView utilizza TCP come protocollo preferito.
  • Quando si utilizza il comando "combine_tessdata -d", l'output viene fornito a stdout anziché a stderr.
  • Risolti i problemi di build durante l'utilizzo di autoconf e clang.

Fonte: opennet.ru

Aggiungi un commento