Lançamento do sistema de reconhecimento de texto Tesseract 5.3.4

Foi publicado o lançamento do sistema de reconhecimento óptico de texto Tesseract 5.3.4, que suporta o reconhecimento de caracteres UTF-8 e textos em mais de 100 idiomas, incluindo russo, cazaque, bielorrusso e ucraniano. O resultado pode ser salvo em texto simples ou nos formatos HTML (hOCR), ALTO (XML), PDF e TSV. O sistema foi originalmente criado em 1985-1995 no laboratório Hewlett Packard, em 2005 o código foi aberto sob a licença Apache e desenvolvido com a participação de funcionários do Google. O código fonte do projeto é distribuído sob a licença Apache 2.0.

O Tesseract inclui um utilitário de console e a biblioteca libtesseract para incorporar a funcionalidade OCR em outros aplicativos. As interfaces GUI de terceiros que suportam Tesseract incluem gImageReader, VietOCR e YAGF. São oferecidos dois mecanismos de reconhecimento: um clássico que reconhece texto no nível de padrões de caracteres individuais, e um novo baseado no uso de um sistema de aprendizado de máquina baseado em uma rede neural recorrente LSTM, otimizado para reconhecer strings inteiras e permitindo um aumento significativo na precisão. Modelos treinados prontos foram publicados para 123 idiomas. Para otimizar o desempenho, são oferecidos módulos que usam instruções OpenMP e SIMD AVX2, AVX, AVX512F, NEON ou SSE4.1.

Principais melhorias:

  • Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
  • В сервере ScrollView в качестве приоритетного протокола задействован TCP.
  • При использовании команды «combine_tessdata -d» обеспечен вывод в поток stdout вместо stderr.
  • Устранены проблемы со сборкой при использовании autoconf и clang.

Fonte: opennet.ru

Adicionar um comentário