Rilascio del sistema di riconoscimento del testo Tesseract 5.1

È stato pubblicato il rilascio del sistema di riconoscimento ottico del testo Tesseract 5.1, che supporta il riconoscimento di caratteri e testi UTF-8 in più di 100 lingue, tra cui russo, kazako, bielorusso e ucraino. Il risultato può essere salvato in testo semplice o nei formati HTML (hOCR), ALTO (XML), PDF e TSV. Il sistema è stato originariamente creato nel 1985-1995 nel laboratorio Hewlett Packard, nel 2005 il codice è stato aperto sotto la licenza Apache e ulteriormente sviluppato con la partecipazione dei dipendenti di Google. Il codice sorgente del progetto è distribuito sotto la licenza Apache 2.0.

Tesseract include un'utilità console e la libreria libtesseract per incorporare la funzionalità OCR in altre applicazioni. Le interfacce GUI di terze parti che supportano Tesseract includono gImageReader, VietOCR e YAGF. Vengono offerti due motori di riconoscimento: uno classico che riconosce il testo a livello di singoli pattern di caratteri, ed uno nuovo basato sull'utilizzo di un sistema di machine learning basato su una rete neurale ricorrente LSTM, ottimizzato per riconoscere intere stringhe e consentire un aumento significativo della precisione. Sono stati pubblicati modelli addestrati già pronti per 123 lingue. Per ottimizzare le prestazioni, vengono offerti moduli che utilizzano istruzioni OpenMP e SIMD AVX2, AVX, NEON o SSE4.1.

Principali miglioramenti in Tesseract 5.1:

  • È stata implementata la capacità di elaborare aree con immagini e linee durante l'output nei formati ALTO, hOCR e testo.
  • Aggiunto nuovo parametro curl_timeout lkz curl_easy_setop.
  • Sistema di costruzione migliorato.
  • È stato fatto del lavoro per rimuovere il codice inutilizzato
  • Risolti arresti anomali causati dalla gestione errata dei puntatori null nella classe PageIterator::Orientation.

Fonte: opennet.ru

Aggiungi un commento