Lanzamiento del sistema de reconocimiento de texto Tesseract 5.5.0

Se ha publicado el lanzamiento del sistema de reconocimiento óptico de texto Tesseract 5.5.0, que admite Unicode y reconocimiento de texto en más de 100 idiomas, incluidos ruso, kazajo, bielorruso y ucraniano. El resultado se puede guardar en texto plano o en formatos HTML (hOCR), ALTO (XML), PDF y TSV. El sistema fue creado originalmente en 1985-1995 en el laboratorio de Hewlett Packard; en 2005, el código se abrió bajo la licencia Apache y posteriormente se desarrolló con la participación de empleados de Google. El código fuente del proyecto se distribuye bajo la licencia Apache 2.0.

Tesseract incluye una utilidad de consola y la biblioteca libtesseract para incorporar la funcionalidad OCR en otras aplicaciones. Las interfaces GUI de terceros que admiten Tesseract incluyen gImageReader, VietOCR y YAGF. Se ofrecen dos motores de reconocimiento: uno clásico que reconoce texto a nivel de patrones de caracteres individuales, y uno nuevo basado en el uso de un sistema de aprendizaje automático basado en una red neuronal recurrente LSTM, optimizado para reconocer cadenas enteras y permitiendo una aumento significativo de la precisión. Se han publicado modelos entrenados ya preparados para 123 idiomas. Para optimizar el rendimiento, se ofrecen módulos que utilizan instrucciones OpenMP y SIMD AVX2, AVX, AVX512F, NEON o SSE4.1.

Principales mejoras:

  • Se agregó soporte para extensiones vectoriales RISC-V V, sobre la base de las cuales se han preparado optimizaciones de ensamblaje para sistemas con procesadores RISC-V.
  • Al grabar el resultado en formato hOCR, los parámetros ocrp_dir y ocrp_lang se configuran en el archivo creado.
  • Código actualizado para detectar modelos de lenguaje disponibles.
  • Se mejoró el código para generar archivos en formato hOCR y se eliminó la conversión de nombres de archivos en la plataforma Windows.
  • Se permite especificar valores de caracteres en las opciones “--oem” y “-psm”.
  • El código ha reemplazado las funciones access y _access con el método std::filesystem::exists(). Las funciones tprintf se han reemplazado mediante el uso del flujo tesserr.
  • Se eliminó la compatibilidad con la plataforma de aprendizaje automático Tensorflow, que se implementó en un momento, pero nunca se utilizó para ejecutar modelos de reconocimiento de IA.
  • Instalador mejorado para la plataforma Windows.
  • El submódulo googletest se ha actualizado a la versión 1.15.2.

Fuente: opennet.ru