Текстти таануу системасынын чыгарылышы Tesseract 5.2

UTF-5.2 символдорун жана 8дөн ашык тилде, анын ичинде орус, казак, белорус жана украин тилдериндеги тексттерди таанууну колдогон Tesseract 100 оптикалык текстти таануу тутумунун релизи басылып чыкты. Натыйжа жөнөкөй текстте же HTML (hOCR), ALTO (XML), PDF жана TSV форматтарында сакталышы мүмкүн. Система алгач 1985-1995-жылдары Hewlett Packard лабораториясында түзүлгөн, 2005-жылы код Apache лицензиясынын алкагында ачылган жана андан ары Google кызматкерлеринин катышуусу менен иштелип чыккан. Долбоордун баштапкы коду Apache 2.0 лицензиясы боюнча таратылат.

Tesseract консолдук утилитаны жана OCR функциясын башка колдонмолорго киргизүү үчүн libtesseract китепканасын камтыйт. Tesseractти колдогон үчүнчү тараптын GUI интерфейстерине gImageReader, VietOCR жана YAGF кирет. Эки таануу кыймылдаткычы сунушталат: текстти жеке тамга үлгүлөрүнүн деңгээлинде тааныган классикалык жана жаңысы LSTM кайталануучу нейрон тармагына негизделген, бүт саптарды таануу үчүн оптималдаштырылган жана машинаны үйрөнүү системасын колдонууга негизделген жаңы. тактыгын олуттуу жогорулатуу. Даяр даярдалган моделдер 123 тилге чыгарылган. Ишти оптималдаштыруу үчүн OpenMP жана SIMD нускамаларын колдонгон модулдар AVX2, AVX, AVX512F, NEON же SSE4.1 сунушталат.

Tesseract 5.2деги негизги жакшыртуулар:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    Source: opennet.ru

Комментарий кошуу