Objavljeno je izdanje sustava za optičko prepoznavanje teksta Tesseract 4.1 koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvorni kod projekta distribuira se pod licencom Apache 2.0.
Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. GUI sučelja trećih strana koja podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje čitavih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i SIMD upute AVX2, AVX, NEON ili SSE4.1.
Glavna poboljšanja u Tesseractu 5.0:
- Značajna promjena u broju verzije nastala je zbog promjena API-ja koje prekidaju kompatibilnost. Konkretno, javno dostupni libtesseract API više nije povezan s vlasničkim tipovima podataka GenericVector i STRING, u korist std::string i std::vector.
- Stablo izvornog teksta je reorganizirano. Javne datoteke zaglavlja premještene su u direktorij include/tesseract.
- Upravljanje memorijom je redizajnirano, svi malloc i besplatni pozivi zamijenjeni su C++ kodom. Provedena je generalna modernizacija koda.
- Dodane su optimizacije za ARM i ARM64 arhitekture; ARM NEON upute se koriste za ubrzanje izračuna. Provedena je optimizacija performansi zajednička svim arhitekturama.
- Implementirani su novi načini za modele obuke i prepoznavanje teksta koji se temelje na korištenju izračuna s pomičnim zarezom. Novi načini rada nude bolje performanse i manju potrošnju memorije. U LSTM motoru brzi način rada float32 omogućen je prema zadanim postavkama.
- Izvršen je prijelaz na korištenje Unicode normalizacije pomoću NFC (Normalization Form Canonical) obrasca.
- Dodana opcija za konfiguriranje detalja dnevnika (--loglevel).
- Sustav izrade temeljen na Autotools je redizajniran i prebačen na izgradnju u nerekurzivnom načinu rada.
- Grana "master" u Gitu preimenovana je u "main".
- Dodana podrška za nova izdanja macOS i Apple sustava temeljenih na M1 čipu.
Izvor: opennet.ru