Izdanje sustava za prepoznavanje teksta Tesseract 4.1
Pripremljeno izdanje sustava za optičko prepoznavanje teksta Teserakt 4.1, podržavajući prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može spremiti u običnom tekstu ili u formatima HTML (hOCR), ALTO (XML), PDF i TSV. Sustav je izvorno nastao 1985.-1995. u laboratoriju Hewlett Packarda, a 2005. kod je otvoren pod licencom Apache i dalje je razvijan uz sudjelovanje zaposlenika Googlea. Izvori projekta širenje licenciran pod Apache 2.0.
Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugradnju OCR funkcionalnosti u druge aplikacije. Od trećih strana koje podržavaju Tesseract GUI sučelja možete primijetiti gImageReader, VietOCR и YAGF. U ponudi su dva mehanizma za prepoznavanje: klasični koji prepoznaje tekst na razini pojedinačnih znakovnih uzoraka i novi koji se temelji na korištenju sustava strojnog učenja koji se temelji na LSTM rekurentnoj neuronskoj mreži, optimiziran za prepoznavanje cijelih nizova i omogućava značajno povećanje točnosti. Gotovi obučeni modeli objavljuju se za 123 jezika. Za optimizaciju performansi nude se moduli koji koriste OpenMP i AVX2, AVX ili SSE4.1 SIMD upute.
Dodana mogućnost ispisa u XML formatu VISOKO (Analizirani izgled i tekstualni objekt). Da biste koristili ovaj format, trebali biste pokrenuti aplikaciju kao “tessaract image_name alto output_dir”;
Dodani novi moduli za renderiranje LSTMBox i WordStrBox, pojednostavljujući obuku motora;
Dodana podrška za pseudografiju u hOCR (HTML) izlazu;
Dodane alternativne skripte napisane u Pythonu za obuku motora na temelju strojnog učenja;
Proširene optimizacije korištenjem AVX, AVX2 i SSE uputa;
Podrška za OpenMP onemogućena je prema zadanim postavkama zbog problem s produktivnošću;
Dodana podrška za bijele i crne liste u LSTM motoru;