Lanzamiento del sistema de reconocimiento de texto Tesseract 5.2

Se ha publicado el lanzamiento del sistema de reconocimiento óptico de texto Tesseract 5.2, que admite el reconocimiento de caracteres y textos UTF-8 en más de 100 idiomas, incluidos ruso, kazajo, bielorruso y ucraniano. El resultado se puede guardar en texto plano o en formatos HTML (hOCR), ALTO (XML), PDF y TSV. El sistema fue creado originalmente en 1985-1995 en el laboratorio de Hewlett Packard, en 2005 el código se abrió bajo la licencia Apache y se desarrolló con la participación de empleados de Google. El código fuente del proyecto se distribuye bajo la licencia Apache 2.0.

Tesseract incluye una utilidad de consola y la biblioteca libtesseract para incorporar la funcionalidad OCR en otras aplicaciones. Las interfaces GUI de terceros que admiten Tesseract incluyen gImageReader, VietOCR y YAGF. Se ofrecen dos motores de reconocimiento: uno clásico que reconoce texto a nivel de patrones de caracteres individuales, y uno nuevo basado en el uso de un sistema de aprendizaje automático basado en una red neuronal recurrente LSTM, optimizado para reconocer cadenas enteras y permitiendo una aumento significativo de la precisión. Se han publicado modelos entrenados ya preparados para 123 idiomas. Para optimizar el rendimiento, se ofrecen módulos que utilizan instrucciones OpenMP y SIMD AVX2, AVX, AVX512F, NEON o SSE4.1.

Mejoras importantes en Tesseract 5.2:

  • Se agregaron optimizaciones implementadas utilizando las instrucciones Intel AVX512F.
  • La API de C implementa una función para inicializar Tesseract cargando un modelo de aprendizaje automático desde la memoria.
  • Se agregó el parámetro invert_threshold, que determina el nivel de inversión de las cadenas de texto. El valor predeterminado es 0.7. Para deshabilitar la inversión, establezca el valor en 0.
  • Procesamiento mejorado de documentos muy grandes en hosts de 32 bits.
  • Se ha realizado la transición del uso de funciones std::regex a std::string.
  • Scripts de compilación mejorados para Autotools, CMake y sistemas de integración continua.

    Fuente: opennet.ru

Añadir un comentario