Lanzamento do sistema de recoñecemento de textos Tesseract 5.0

Publicouse o lanzamento do sistema de recoñecemento óptico de texto Tesseract 4.1, que admite o recoñecemento de caracteres UTF-8 e textos en máis de 100 idiomas, entre eles ruso, casaco, bielorruso e ucraíno. O resultado pódese gardar en texto plano ou en formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema foi orixinalmente creado en 1985-1995 no laboratorio de Hewlett Packard; en 2005, o código abriuse baixo a licenza Apache e foi desenvolvido aínda máis coa participación dos empregados de Google. O código fonte do proxecto distribúese baixo a licenza Apache 2.0.

Tesseract inclúe unha utilidade de consola e a biblioteca libtesseract para incorporar a funcionalidade OCR noutras aplicacións. As interfaces GUI de terceiros que admiten Tesseract inclúen gImageReader, VietOCR e YAGF. Ofrécense dous motores de recoñecemento: un clásico que recoñece texto a nivel de patróns de caracteres individuais, e outro novo baseado no uso dun sistema de aprendizaxe automática baseado nunha rede neuronal recorrente LSTM, optimizada para recoñecer cadeas enteiras e que permite unha aumento significativo da precisión. Publicáronse modelos adestrados preparados para 123 idiomas. Para optimizar o rendemento, ofrécense módulos que utilizan instrucións OpenMP e SIMD AVX2, AVX, NEON ou SSE4.1.

Melloras principais en Tesseract 5.0:

  • Un cambio significativo no número de versión débese aos cambios realizados na API que rompen a compatibilidade. En particular, a API pública libtesseract xa non está ligada aos tipos de datos propietarios GenericVector e STRING, en favor de std::string e std::vector.
  • A árbore do texto de orixe reorganizouse. Os ficheiros de cabeceira públicos movéronse ao directorio include/tesseract.
  • Rediseñouse a xestión da memoria, todas as chamadas malloc e gratuítas substituíronse por código C++. Realizouse unha modernización xeral do código.
  • Optimizacións engadidas para arquitecturas ARM e ARM64; as instrucións ARM NEON utilízanse para acelerar os cálculos. Realizouse a optimización do rendemento común a todas as arquitecturas.
  • Implementáronse novos modos de adestramento de modelos e recoñecemento de texto baseados no uso de cálculos de coma flotante. Os novos modos ofrecen un maior rendemento e un menor consumo de memoria. No motor LSTM, o modo rápido float32 está activado por defecto.
  • Fíxose unha transición ao uso da normalización Unicode mediante o formulario NFC (Formulario de Normalización Canónica).
  • Engadiuse unha opción para configurar os detalles do rexistro (--loglevel).
  • O sistema de construción baseado en Autotools foi redeseñado e cambiou para construír en modo non recursivo.
  • A rama "mestra" en Git foi renomeada a "principal".
  • Engadido soporte para novos lanzamentos de sistemas macOS e Apple baseados no chip M1.

    Fonte: opennet.ru

Engadir un comentario