Lëshimi i sistemit të njohjes së tekstit Tesseract 4.1
Përgatitur lëshimi i sistemit optik të njohjes së tekstit Tesseract 4.1, duke mbështetur njohjen e karaktereve dhe teksteve UTF-8 në më shumë se 100 gjuhë, duke përfshirë rusishten, kazakishten, bjellorusishten dhe ukrainishten. Rezultati mund të ruhet në tekst të thjeshtë ose në formate HTML (hOCR), ALTO (XML), PDF dhe TSV. Sistemi u krijua fillimisht në 1985-1995 në laboratorin Hewlett Packard; në 2005, kodi u hap nën licencën Apache dhe u zhvillua më tej me pjesëmarrjen e punonjësve të Google. Burimet e projektit përhapet licencuar sipas Apache 2.0.
Tesseract përfshin një mjet konsole dhe bibliotekën libtesseract për futjen e funksionalitetit OCR në aplikacione të tjera. Nga palët e treta që mbështesin Tesseract Ndërfaqet GUI ju mund të vini re gImageReader, VietOCR и YAGF. Ofrohen dy motorë njohjeje: një klasik që njeh tekstin në nivelin e modeleve individuale të karaktereve dhe një i ri i bazuar në përdorimin e një sistemi të mësimit të makinës bazuar në një rrjet nervor periodik LSTM, i optimizuar për njohjen e vargjeve të tëra dhe duke lejuar një rritje e ndjeshme e saktësisë. Janë publikuar modele të trajnuara të gatshme për 123 gjuhë. Për të optimizuar performancën, ofrohen module që përdorin udhëzimet SIMD OpenMP dhe AVX2, AVX ose SSE4.1.
U shtua aftësia për të dalë në formatin XML HIGH (Shfaqja e analizuar dhe objekti i tekstit). Për të përdorur këtë format, duhet ta ekzekutoni aplikacionin si “tessaract image_name alto output_dir”;
Shtuar module të reja renderimi LSTMBox dhe WordStrBox, duke thjeshtuar trajnimin e motorit;
Mbështetje e shtuar për pseudografinë në daljen hOCR (HTML);
Shtuar skriptet alternative të shkruara në Python për trajnimin e motorit bazuar në mësimin e makinerive;
Optimizimet e zgjeruara duke përdorur udhëzimet AVX, AVX2 dhe SSE;
Mbështetja OpenMP është çaktivizuar si parazgjedhje për shkak të problem me produktivitet;
Mbështetje e shtuar për listat e bardha dhe të zeza në motorin LSTM;
Skriptet e përmirësuara të ndërtimit të bazuara në Cmake.