Llançament del sistema de reconeixement de text Tesseract 5.1

S'ha publicat el llançament del sistema de reconeixement òptic de text Tesseract 5.1, que admet el reconeixement de caràcters i textos UTF-8 en més de 100 idiomes, inclosos el rus, el kazakh, el bielorús i l'ucraïnès. El resultat es pot desar tant en text clar com en formats HTML (hOCR), ALTO (XML), PDF i TSV. Inicialment, el sistema es va crear el 1985-1995 al laboratori de Hewlett Packard, el 2005 el codi es va obrir amb la llicència Apache i es va desenvolupar encara més amb la participació dels empleats de Google. Els textos font del projecte es distribueixen sota la llicència Apache 2.0.

Tesseract inclou una utilitat de consola i la biblioteca libtesseract per incrustar la funcionalitat OCR en altres aplicacions. Les GUI de tercers que admeten Tesseract inclouen gImageReader, VietOCR i YAGF. Es proposen dos motors de reconeixement: un de clàssic que reconeix el text a nivell de patrons de caràcters individuals, i un de nou basat en l'ús d'un sistema d'aprenentatge automàtic basat en una xarxa neuronal recurrent LSTM, optimitzada per al reconeixement de línies senceres i que permet augment significatiu de la precisió. S'han publicat models preparats per a 123 idiomes. Per optimitzar el rendiment, s'ofereixen mòduls que utilitzen instruccions OpenMP i SIMD AVX2, AVX, NEON o SSE4.1.

Millores clau a Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Sistema de construcció millorat.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Font: opennet.ru

Afegeix comentari