Előkészített optikai szövegfelismerő rendszer kiadása Tesseact 4.1, amely támogatja az UTF-8 karakterek és szövegek felismerését több mint 100 nyelven, köztük orosz, kazah, fehérorosz és ukrán nyelven. Az eredmény elmenthető egyszerű szövegben vagy HTML (hOCR), ALTO (XML), PDF és TSV formátumban. A rendszert eredetileg 1985-1995-ben hozták létre a Hewlett Packard laboratóriumában, majd 2005-ben az Apache licenc alatt megnyílt a kód, és a Google munkatársainak közreműködésével továbbfejlesztették. A projekt forrásai terjedés Apache 2.0 licenc alatt.
A Tesseract tartalmaz egy konzol segédprogramot és a libtesseract könyvtárat az OCR funkciók más alkalmazásokba való beágyazásához. A Tesseactot támogató harmadik felektől GUI interfészek megjegyezheti gImageReader, VietOCR и YAGF. Két felismerő motort kínálnak: egy klasszikust, amely egyedi karakterminták szintjén ismeri fel a szöveget, és egy újat, amely egy LSTM ismétlődő neurális hálózaton alapuló gépi tanulási rendszeren alapul, amely teljes karakterláncok felismerésére van optimalizálva, és lehetővé teszi a a pontosság jelentős növekedése. Kész, betanított modelleket tesznek közzé 123 nyelv. A teljesítmény optimalizálása érdekében OpenMP és AVX2, AVX vagy SSE4.1 SIMD utasításokat használó modulokat kínálnak.
Hozzáadott XML formátumú kimeneti képességet HIGH (Elemzett elrendezés és szövegobjektum). Ennek a formátumnak a használatához futtassa az alkalmazást „tessaract image_name alto output_dir” néven;
Új LSTMBox és WordStrBox renderelő modulok hozzáadva, egyszerűsítve a motorok képzését;
Hozzáadott pszeudográfiai támogatás a hOCR (HTML) kimenetben;
Alternatív Pythonban írt szkriptek hozzáadva a motor gépi tanuláson alapuló betanításához;
Kibővített optimalizálás AVX, AVX2 és SSE utasításokkal;
Az OpenMP támogatás alapértelmezés szerint le van tiltva a következő miatt problémák termelékenységgel;
Hozzáadott támogatás a fehér és fekete listákhoz az LSTM motorban;
Továbbfejlesztett build szkriptek a Cmake alapján.