מעלדונג פון די טעקסט דערקענונג סיסטעם Tesseract 5.2

די מעלדונג פון די Tesseract 5.2 אָפּטיש טעקסט דערקענונג סיסטעם איז ארויס, וואָס שטיצט דערקענונג פון UTF-8 אותיות און טעקסטן אין מער ווי 100 שפּראַכן, אַרייַנגערעכנט רוסיש, קאַזאַך, בעלאָרוסיש און אוקרייניש. דער רעזולטאַט קענען זיין געראטעוועט אין קלאָר טעקסט אָדער אין HTML (hOCR), ALTO (XML), PDF און TSV פֿאָרמאַטירונגען. דער סיסטעם איז ערידזשנאַלי באשאפן אין 1985-1995 אין דער לאַבאָראַטאָריע פון ​​העוולעטט פּאַקקאַרד; אין 2005, דער קאָד איז געווען געעפנט אונטער די אַפּאַטשי דערלויבעניש און איז געווען ווייַטער דעוועלאָפּעד מיט די אָנטייל פון Google עמפּלוייז. דער מקור קאָד פון די פּרויעקט איז פונאנדערגעטיילט אונטער די Apache 2.0 דערלויבעניש.

טעססעראַקט כולל אַ קאַנסאָול נוצן און די ליבטעססעראַקט ביבליאָטעק פֿאַר עמבעדדינג OCR פאַנגקשאַנאַליטי אין אנדערע אַפּלאַקיישאַנז. דריט-פּאַרטיי GUI ינטערפייסיז וואָס שטיצן Tesseract אַרייַננעמען gImageReader, VietOCR און YAGF. צוויי דערקענונג ענדזשאַנז זענען געפֿינט: אַ קלאַסיש וואָס אנערקענט טעקסט אויף דער מדרגה פון יחיד כאַראַקטער פּאַטערנז, און אַ נייַע באזירט אויף די נוצן פון אַ מאַשין לערנען סיסטעם באזירט אויף אַ LSTM ריקעראַנט נעוראַל נעץ, אָפּטימיזעד פֿאַר דערקענען גאַנץ סטרינגס און אַלאַוינג אַ באַטייַטיק פאַרגרעסערן אין אַקיעראַסי. פאַרטיק טריינד מאָדעלס זענען ארויס פֿאַר 123 שפּראַכן. צו אַפּטאַמייז פאָרשטעלונג, מאַדזשולז ניצן OpenMP און SIMD ינסטראַקשאַנז AVX2, AVX, AVX512F, NEON אָדער SSE4.1 זענען געפֿינט.

הויפּט ימפּרווומאַנץ אין Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    מקור: opennet.ru

לייגן אַ באַמערקונג