Lançamento do sistema de reconhecimento de texto Tesseract 4.1

Preparado lançamento de sistema de reconhecimento óptico de texto Tesseract 4.1, apoiando o reconhecimento de caracteres e textos UTF-8 em mais de 100 idiomas, incluindo russo, cazaque, bielorrusso e ucraniano. O resultado pode ser salvo em texto simples ou nos formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema foi originalmente criado em 1985-1995 no laboratório Hewlett Packard, em 2005 o código foi aberto sob a licença Apache e desenvolvido com a participação de funcionários do Google. Fontes do projeto espalhar licenciado sob Apache 2.0.

O Tesseract inclui um utilitário de console e a biblioteca libtesseract para incorporar a funcionalidade OCR em outros aplicativos. De terceiros que apoiam o Tesseract Interfaces gráficas você pode notar gImageReader, Vietnam OCR и YAGF. São oferecidos dois mecanismos de reconhecimento: um clássico que reconhece texto no nível de padrões de caracteres individuais, e um novo baseado no uso de um sistema de aprendizado de máquina baseado em uma rede neural recorrente LSTM, otimizado para reconhecer strings inteiras e permitindo um aumento significativo na precisão. Modelos treinados prontos são publicados para 123 idiomas. Para otimizar o desempenho, são oferecidos módulos que usam OpenMP e instruções AVX2, AVX ou SSE4.1 SIMD.

O principal melhorias no Tesseract 4.1:

  • Adicionada a capacidade de saída em formato XML ALTO (Layout analisado e objeto de texto). Para usar este formato, você deve executar o aplicativo como “tessaract image_name alto output_dir”;
  • Adicionados novos módulos de renderização LSTMBox e WordStrBox, simplificando o treinamento do motor;
  • Adicionado suporte para pseudográficos na saída hOCR (HTML);
  • Adicionados scripts alternativos escritos em Python para treinamento do motor baseado em aprendizado de máquina;
  • Otimizações expandidas usando instruções AVX, AVX2 e SSE;
  • O suporte OpenMP está desabilitado por padrão devido a проблем com produtividade;
  • Adicionado suporte para listas brancas e negras no mecanismo LSTM;
  • Scripts de construção aprimorados baseados em Cmake.

Fonte: opennet.ru

Adicionar um comentário