Lanzamento do sistema de recoñecemento de textos Tesseract 4.1
Preparado liberación do sistema de recoñecemento óptico de texto Teseracto 4.1, que admite o recoñecemento de caracteres e textos UTF-8 en máis de 100 idiomas, entre eles ruso, casaco, bielorruso e ucraíno. O resultado pódese gardar en texto plano ou en formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema creouse orixinalmente en 1985-1995 no laboratorio Hewlett Packard; en 2005, o código abriuse baixo a licenza Apache e foi desenvolvido aínda máis coa participación dos empregados de Google. Fontes do proxecto espallamento licenciado baixo Apache 2.0.
Tesseract inclúe unha utilidade de consola e a biblioteca libtesseract para incorporar a funcionalidade OCR noutras aplicacións. De terceiros que admiten Tesseract Interfaces GUI podes notar gImageReader, VietOCR и YAGF. Ofrécense dous motores de recoñecemento: un clásico que recoñece texto a nivel de patróns de caracteres individuais e outro novo baseado no uso dun sistema de aprendizaxe automática baseado nunha rede neuronal recorrente LSTM, optimizada para recoñecer cadeas enteiras e que permite unha aumento significativo da precisión. Publícanse modelos adestrados preparados para 123 idiomas. Para optimizar o rendemento, ofrécense módulos que usan instrucións SIMD de OpenMP e AVX2, AVX ou SSE4.1.
Engadida a posibilidade de producir saída en formato XML ALTA (Disposición e obxecto de texto analizados). Para usar este formato, debes executar a aplicación como "tessaract image_name alto output_dir";
Engadíronse novos módulos de renderizado LSTMBox e WordStrBox, simplificando o adestramento do motor;
Engadido soporte para pseudográficos na saída hOCR (HTML);
Engadíronse scripts alternativos escritos en Python para adestrar o motor baseado na aprendizaxe automática;
Optimizacións ampliadas mediante instrucións AVX, AVX2 e SSE;
O soporte de OpenMP está desactivado por defecto debido a problemas coa produtividade;
Engadido soporte para listas brancas e negras no motor LSTM;
Scripts de compilación mellorados baseados en Cmake.