Liberazione di u sistema di ricunniscenza di testu Tesseract 5.0

A liberazione di u sistema di ricunniscenza di u testu otticu Tesseract 4.1 hè stata publicata, chì sustene a ricunniscenza di caratteri UTF-8 è testi in più di 100 lingue, cumprese russa, kazakh, bielorussu è ucrainu. U risultatu pò esse salvatu sia in testu chjaru sia in formati HTML (hOCR), ALTO (XML), PDF è TSV. In principiu, u sistema hè statu creatu in 1985-1995 in u laboratoriu di Hewlett Packard, in u 2005 u codice hè statu apertu sottu a licenza Apache è più sviluppatu cù a participazione di l'impiegati di Google. I testi surghjenti di u prugettu sò distribuiti sottu a licenza Apache 2.0.

Tesseract include una utilità di cunsola è a libreria libtesseract per incrustà a funziunalità OCR in altre applicazioni. Interfacce GUI di terze parti chì supportanu Tesseract include gImageReader, VietOCR è YAGF. Dui mutori di ricunniscenza sò offerti: un classicu chì ricunnosce u testu à u livellu di mudelli di caratteri individuali, è un novu basatu annantu à l'usu di un sistema di apprendimentu machine basatu nantu à una rete neurale recurrente LSTM, ottimizzata per ricunnosce stringhe intere è chì permettenu un aumentu significativu di a precisione. I mudelli furmati pronti sò stati publicati per 123 lingue. Per ottimisà u rendiment, i moduli chì utilizanu OpenMP è SIMD instructions AVX2, AVX, NEON o SSE4.1 sò offerti.

Migliuramenti chjave in Tesseract 5.0:

  • Un cambiamentu significativu in u numeru di versione hè dovutu à i cambiamenti fatti à l'API chì rompenu a cumpatibilità. In particulare, l'API publica libtesseract ùn hè più ligata à i tipi di dati GenericVector è STRING, in favore di std::string è std::vector.
  • L'arburu di u testu fonte hè statu riurganizatu. I schedarii di header publichi sò stati spustati in u repertoriu include / tesseract.
  • A gestione di a memoria hè stata riprogettata, tutti i malloc è i chjamati gratuiti sò stati rimpiazzati cù u codice C++. Una mudernizazione generale di u codice hè stata realizata.
  • Ottimisazioni aghjunte per l'architetture ARM è ARM64; Istruzzioni ARM NEON sò aduprate per accelerà i calculi. L'optimizazione di u rendiment cumunu à tutte l'architetture hè stata realizata.
  • Sò stati implementati novi modi per mudelli di furmazione è ricunniscenza di testu basati nantu à l'usu di calculi in virgule flottante. I novi modi offre un rendimentu più altu è un cunsumu di memoria più bassu. In u mutore LSTM, u modu veloce float32 hè attivatu per automaticamente.
  • Una transizione hè stata fatta à aduprà a normalizazione Unicode utilizendu a forma NFC (Formula di Normalizazione Canonica).
  • Aggiunta una opzione per cunfigurà i dettagli di log (--loglevel).
  • U sistema di custruzzione basatu annantu à Autotools hè statu riprogettatu è cambiatu per custruisce in modu non recursive.
  • U ramu "maestru" in Git hè statu rinominatu "principale".
  • Aghjunghje supportu per i novi versioni di sistemi macOS è Apple basati nantu à u chip M1.

    Source: opennet.ru

Add a comment