Objavljeno je izdanje sustava za optičko prepoznavanje teksta Tesseract 5.2 koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvorni kod projekta distribuira se pod licencom Apache 2.0.
Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. GUI sučelja trećih strana koja podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje čitavih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i SIMD upute AVX2, AVX, AVX512F, NEON ili SSE4.1.
Glavna poboljšanja u Tesseractu 5.2:
- Dodane optimizacije implementirane pomoću uputa Intel AVX512F.
- C API implementira funkciju za inicijalizaciju teseracta s učitavanjem modela strojnog učenja iz memorije.
- Dodan je parametar invert_threshold, koji određuje razinu inverzije tekstualnih nizova. Zadana vrijednost je 0.7. Da biste onemogućili inverziju, postavite vrijednost na 0.
- Poboljšana obrada vrlo velikih dokumenata na 32-bitnim hostovima.
- Prijelaz je napravljen s korištenja std::regex funkcija na std::string.
- Poboljšane skripte za izgradnju za Autotools, CMake i sustave kontinuirane integracije.
Izvor: opennet.ru