Lançamento do sistema de reconhecimento de texto Tesseract 5.1

Foi publicado o lançamento do sistema de reconhecimento óptico de texto Tesseract 5.1, que suporta o reconhecimento de caracteres UTF-8 e textos em mais de 100 idiomas, incluindo russo, cazaque, bielorrusso e ucraniano. O resultado pode ser salvo em texto simples ou nos formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema foi originalmente criado em 1985-1995 no laboratório Hewlett Packard, em 2005 o código foi aberto sob a licença Apache e desenvolvido com a participação de funcionários do Google. O código fonte do projeto é distribuído sob a licença Apache 2.0.

O Tesseract inclui um utilitário de console e a biblioteca libtesseract para incorporar a funcionalidade OCR em outros aplicativos. As interfaces GUI de terceiros que suportam Tesseract incluem gImageReader, VietOCR e YAGF. São oferecidos dois mecanismos de reconhecimento: um clássico que reconhece texto no nível de padrões de caracteres individuais, e um novo baseado no uso de um sistema de aprendizado de máquina baseado em uma rede neural recorrente LSTM, otimizado para reconhecer strings inteiras e permitindo um aumento significativo na precisão. Modelos treinados prontos foram publicados para 123 idiomas. Para otimizar o desempenho, são oferecidos módulos que usam instruções OpenMP e SIMD AVX2, AVX, NEON ou SSE4.1.

Principais melhorias no Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Sistema de construção aprimorado.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Fonte: opennet.ru

Adicionar um comentário