A liberazione di u sistema di ricunniscenza di u testu otticu Tesseract 5.1 hè stata publicata, chì sustene a ricunniscenza di caratteri UTF-8 è testi in più di 100 lingue, cumprese russa, kazakh, bielorussu è ucrainu. U risultatu pò esse salvatu sia in testu chjaru sia in formati HTML (hOCR), ALTO (XML), PDF è TSV. In principiu, u sistema hè statu creatu in 1985-1995 in u laboratoriu di Hewlett Packard, in u 2005 u codice hè statu apertu sottu a licenza Apache è più sviluppatu cù a participazione di l'impiegati di Google. I testi surghjenti di u prugettu sò distribuiti sottu a licenza Apache 2.0.
Tesseract include una utilità di cunsola è a libreria libtesseract per incrustà a funziunalità OCR in altre applicazioni. Interfacce GUI di terze parti chì supportanu Tesseract include gImageReader, VietOCR è YAGF. Dui mutori di ricunniscenza sò offerti: un classicu chì ricunnosce u testu à u livellu di mudelli di caratteri individuali, è un novu basatu annantu à l'usu di un sistema di apprendimentu machine basatu nantu à una rete neurale recurrente LSTM, ottimizzata per ricunnosce stringhe intere è chì permettenu un aumentu significativu di a precisione. I mudelli furmati pronti sò stati publicati per 123 lingue. Per ottimisà u rendiment, i moduli chì utilizanu OpenMP è SIMD instructions AVX2, AVX, NEON o SSE4.1 sò offerti.
Migliuramenti chjave in Tesseract 5.1:
- Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
- Добавлен новый параметр curl_timeout lkz curl_easy_setop.
- Sistema di custruzzione migliuratu.
- Проведена работа по удалению неиспользуемого кода
- Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.
Source: opennet.ru