Објавување на системот за препознавање текст Tesseract 5.2

Објавено е издавањето на системот за оптичко препознавање текст Tesseract 5.2, кој поддржува препознавање на UTF-8 знаци и текстови на повеќе од 100 јазици, вклучувајќи руски, казахстански, белоруски и украински. Резултатот може да се зачува во обичен текст или во формати HTML (hOCR), ALTO (XML), PDF и TSV. Системот првично беше создаден во 1985-1995 година во лабораторијата Хјулит Пакард; во 2005 година, кодот беше отворен под лиценцата Apache и беше дополнително развиен со учество на вработените на Google. Изворниот код на проектот е дистрибуиран под лиценцата Apache 2.0.

Tesseract вклучува алатка за конзола и библиотека libtesseract за вградување на функционалноста на OCR во други апликации. Интерфејсите на GUI од трета страна кои поддржуваат Tesseract вклучуваат gImageReader, VietOCR и YAGF. Понудени се два мотори за препознавање: класичен кој препознава текст на ниво на индивидуални шаблони на знаци и нов базиран на употреба на систем за машинско учење базиран на рекурентна невронска мрежа LSTM, оптимизиран за препознавање цели низи и овозможува значително зголемување на точноста. Објавени се готови обучени модели за 123 јазици. За да се оптимизираат перформансите, се нудат модули кои користат OpenMP и SIMD инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.

Големи подобрувања во Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    Извор: opennet.ru

Додадете коментар