Se ha publicado el lanzamiento del sistema de reconocimiento óptico de texto Tesseract 5.5.0, que admite Unicode y reconocimiento de texto en más de 100 idiomas, incluidos ruso, kazajo, bielorruso y ucraniano. El resultado se puede guardar en texto plano o en formatos HTML (hOCR), ALTO (XML), PDF y TSV. El sistema fue creado originalmente en 1985-1995 en el laboratorio de Hewlett Packard; en 2005, el código se abrió bajo la licencia Apache y posteriormente se desarrolló con la participación de empleados de Google. El código fuente del proyecto se distribuye bajo la licencia Apache 2.0.
Tesseract incluye una utilidad de consola y la biblioteca libtesseract para incorporar la funcionalidad OCR en otras aplicaciones. Las interfaces GUI de terceros que admiten Tesseract incluyen gImageReader, VietOCR y YAGF. Se ofrecen dos motores de reconocimiento: uno clásico que reconoce texto a nivel de patrones de caracteres individuales, y uno nuevo basado en el uso de un sistema de aprendizaje automático basado en una red neuronal recurrente LSTM, optimizado para reconocer cadenas enteras y permitiendo una aumento significativo de la precisión. Se han publicado modelos entrenados ya preparados para 123 idiomas. Para optimizar el rendimiento, se ofrecen módulos que utilizan instrucciones OpenMP y SIMD AVX2, AVX, AVX512F, NEON o SSE4.1.
Principales mejoras:
- Se agregó soporte para extensiones vectoriales RISC-V V, sobre la base de las cuales se han preparado optimizaciones de ensamblaje para sistemas con procesadores RISC-V.
- Al grabar el resultado en formato hOCR, los parámetros ocrp_dir y ocrp_lang se configuran en el archivo creado.
- Código actualizado para detectar modelos de lenguaje disponibles.
- Se mejoró el código para generar archivos en formato hOCR y se eliminó la conversión de nombres de archivos en la plataforma Windows.
- Se permite especificar valores de caracteres en las opciones “--oem” y “-psm”.
- El código ha reemplazado las funciones access y _access con el método std::filesystem::exists(). Las funciones tprintf se han reemplazado mediante el uso del flujo tesserr.
- Se eliminó la compatibilidad con la plataforma de aprendizaje automático Tensorflow, que se implementó en un momento, pero nunca se utilizó para ejecutar modelos de reconocimiento de IA.
- Instalador mejorado para la plataforma Windows.
- El submódulo googletest se ha actualizado a la versión 1.15.2.
Fuente: opennet.ru