Vydanie systému rozpoznávania textu Tesseract 5.2

Bolo zverejnené vydanie systému optického rozpoznávania textu Tesseract 5.2, ktorý podporuje rozpoznávanie znakov a textov UTF-8 vo viac ako 100 jazykoch vrátane ruštiny, kazaštiny, bieloruštiny a ukrajinčiny. Výsledok je možné uložiť ako obyčajný text alebo vo formátoch HTML (hOCR), ALTO (XML), PDF a TSV. Systém pôvodne vznikol v rokoch 1985-1995 v laboratóriu Hewlett Packard, v roku 2005 bol kód otvorený pod licenciou Apache a ďalej sa vyvíjal za účasti zamestnancov Google. Zdrojový kód projektu je šírený pod licenciou Apache 2.0.

Tesseract obsahuje pomôcku konzoly a knižnicu libtesseract na zabudovanie funkcií OCR do iných aplikácií. GUI rozhrania tretích strán, ktoré podporujú Tesseract, zahŕňajú gImageReader, VietOCR a YAGF. Ponúkajú sa dva rozpoznávacie motory: klasický, ktorý rozpoznáva text na úrovni jednotlivých vzorov znakov, a nový založený na použití systému strojového učenia založeného na rekurentnej neurónovej sieti LSTM, optimalizovaný na rozpoznávanie celých reťazcov a umožňujúci výrazné zvýšenie presnosti. Hotové trénované modely boli publikované pre 123 jazykov. Pre optimalizáciu výkonu sú ponúkané moduly využívajúce OpenMP a SIMD inštrukcie AVX2, AVX, AVX512F, NEON alebo SSE4.1.

Hlavné vylepšenia v Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    Zdroj: opennet.ru

Pridať komentár