Lançamento do sistema de reconhecimento de texto Tesseract 5.2

Foi publicado o lançamento do sistema de reconhecimento óptico de texto Tesseract 5.2, que suporta o reconhecimento de caracteres UTF-8 e textos em mais de 100 idiomas, incluindo russo, cazaque, bielorrusso e ucraniano. O resultado pode ser salvo em texto simples ou nos formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema foi originalmente criado em 1985-1995 no laboratório Hewlett Packard, em 2005 o código foi aberto sob a licença Apache e desenvolvido com a participação de funcionários do Google. O código fonte do projeto é distribuído sob a licença Apache 2.0.

O Tesseract inclui um utilitário de console e a biblioteca libtesseract para incorporar a funcionalidade OCR em outros aplicativos. As interfaces GUI de terceiros que suportam Tesseract incluem gImageReader, VietOCR e YAGF. São oferecidos dois mecanismos de reconhecimento: um clássico que reconhece texto no nível de padrões de caracteres individuais, e um novo baseado no uso de um sistema de aprendizado de máquina baseado em uma rede neural recorrente LSTM, otimizado para reconhecer strings inteiras e permitindo um aumento significativo na precisão. Modelos treinados prontos foram publicados para 123 idiomas. Para otimizar o desempenho, são oferecidos módulos que usam instruções OpenMP e SIMD AVX2, AVX, AVX512F, NEON ou SSE4.1.

Principais melhorias no Tesseract 5.2:

  • Adicionadas otimizações implementadas usando instruções Intel AVX512F.
  • A API C implementa uma função para inicializar o tesseract carregando um modelo de aprendizado de máquina da memória.
  • Adicionado o parâmetro invert_threshold, que determina o nível de inversão das strings de texto. O valor padrão é 0.7. Para desativar a inversão, defina o valor como 0.
  • Processamento aprimorado de documentos muito grandes em hosts de 32 bits.
  • A transição foi feita do uso de funções std::regex para std::string.
  • Scripts de construção aprimorados para Autotools, CMake e sistemas de integração contínua.

    Fonte: opennet.ru

Adicionar um comentário