Lanzamiento del sistema de reconocimiento de texto Tesseract 4.1

Preparado Lanzamiento del sistema de reconocimiento óptico de texto. Teseracto 4.1, que admite el reconocimiento de caracteres y textos UTF-8 en más de 100 idiomas, incluidos ruso, kazajo, bielorruso y ucraniano. El resultado se puede guardar en texto plano o en formatos HTML (hOCR), ALTO (XML), PDF y TSV. El sistema fue creado originalmente en 1985-1995 en el laboratorio de Hewlett Packard, en 2005 el código se abrió bajo la licencia Apache y se desarrolló con la participación de empleados de Google. Fuentes del proyecto propagar licenciado bajo Apache 2.0.

Tesseract incluye una utilidad de consola y la biblioteca libtesseract para incorporar la funcionalidad OCR en otras aplicaciones. De terceros que soportan Tesseract interfaces GUI puedes notar gImageReader, VietnamOCR и YAGF. Se ofrecen dos motores de reconocimiento: uno clásico que reconoce texto a nivel de patrones de caracteres individuales, y uno nuevo basado en el uso de un sistema de aprendizaje automático basado en una red neuronal recurrente LSTM, optimizado para reconocer cadenas enteras y permitiendo una aumento significativo de la precisión. Se publican modelos entrenados ya preparados para 123 idiomas. Para optimizar el rendimiento, se ofrecen módulos que utilizan OpenMP e instrucciones SIMD AVX2, AVX o SSE4.1.

El principal mejoras en Teseracto 4.1:

  • Se agregó la capacidad de generar en formato XML. HIGH (Diseño analizado y objeto de texto). Para utilizar este formato, debe ejecutar la aplicación como “tessaract image_name alto output_dir”;
  • Se agregaron nuevos módulos de renderizado LSTMBox y WordStrBox, lo que simplifica el entrenamiento del motor;
  • Se agregó soporte para pseudográficos en la salida hOCR (HTML);
  • Se agregaron scripts alternativos escritos en Python para entrenar el motor basado en aprendizaje automático;
  • Optimizaciones ampliadas utilizando instrucciones AVX, AVX2 y SSE;
  • La compatibilidad con OpenMP está deshabilitada de forma predeterminada debido a проблем con productividad;
  • Se agregó soporte para listas blancas y negras en el motor LSTM;
  • Scripts de compilación mejorados basados ​​en Cmake.

Fuente: opennet.ru

Añadir un comentario