Lanzamento do sistema de recoñecemento de textos Tesseract 4.1

Preparado liberación do sistema de recoñecemento óptico de texto Teseracto 4.1, que admite o recoñecemento de caracteres e textos UTF-8 en máis de 100 idiomas, entre eles ruso, casaco, bielorruso e ucraíno. O resultado pódese gardar en texto plano ou en formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema creouse orixinalmente en 1985-1995 no laboratorio Hewlett Packard; en 2005, o código abriuse baixo a licenza Apache e foi desenvolvido aínda máis coa participación dos empregados de Google. Fontes do proxecto espallamento licenciado baixo Apache 2.0.

Tesseract inclúe unha utilidade de consola e a biblioteca libtesseract para incorporar a funcionalidade OCR noutras aplicacións. De terceiros que admiten Tesseract Interfaces GUI podes notar gImageReader, VietOCR и YAGF. Ofrécense dous motores de recoñecemento: un clásico que recoñece texto a nivel de patróns de caracteres individuais e outro novo baseado no uso dun sistema de aprendizaxe automática baseado nunha rede neuronal recorrente LSTM, optimizada para recoñecer cadeas enteiras e que permite unha aumento significativo da precisión. Publícanse modelos adestrados preparados para 123 idiomas. Para optimizar o rendemento, ofrécense módulos que usan instrucións SIMD de OpenMP e AVX2, AVX ou SSE4.1.

O principal melloras en Tesseract 4.1:

  • Engadida a posibilidade de producir saída en formato XML ALTA (Disposición e obxecto de texto analizados). Para usar este formato, debes executar a aplicación como "tessaract image_name alto output_dir";
  • Engadíronse novos módulos de renderizado LSTMBox e WordStrBox, simplificando o adestramento do motor;
  • Engadido soporte para pseudográficos na saída hOCR (HTML);
  • Engadíronse scripts alternativos escritos en Python para adestrar o motor baseado na aprendizaxe automática;
  • Optimizacións ampliadas mediante instrucións AVX, AVX2 e SSE;
  • O soporte de OpenMP está desactivado por defecto debido a problemas coa produtividade;
  • Engadido soporte para listas brancas e negras no motor LSTM;
  • Scripts de compilación mellorados baseados en Cmake.

Fonte: opennet.ru

Engadir un comentario