מעלדונג פון די טעקסט דערקענונג סיסטעם Tesseract 5.3.4

די מעלדונג פון די Tesseract 5.3.4 אָפּטיש טעקסט דערקענונג סיסטעם איז ארויס, וואָס שטיצט דערקענונג פון UTF-8 אותיות און טעקסטן אין מער ווי 100 שפּראַכן, אַרייַנגערעכנט רוסיש, קאַזאַך, בעלאָרוסיש און אוקרייניש. דער רעזולטאַט קענען זיין געראטעוועט אין קלאָר טעקסט אָדער אין HTML (hOCR), ALTO (XML), PDF און TSV פֿאָרמאַטירונגען. דער סיסטעם איז ערידזשנאַלי באשאפן אין 1985-1995 אין דער לאַבאָראַטאָריע פון ​​העוולעטט פּאַקקאַרד; אין 2005, דער קאָד איז געווען געעפנט אונטער די אַפּאַטשי דערלויבעניש און איז געווען ווייַטער דעוועלאָפּעד מיט די אָנטייל פון Google עמפּלוייז. דער מקור קאָד פון די פּרויעקט איז פונאנדערגעטיילט אונטער די Apache 2.0 דערלויבעניש.

טעססעראַקט כולל אַ קאַנסאָול נוצן און די ליבטעססעראַקט ביבליאָטעק פֿאַר עמבעדדינג OCR פאַנגקשאַנאַליטי אין אנדערע אַפּלאַקיישאַנז. דריט-פּאַרטיי GUI ינטערפייסיז וואָס שטיצן Tesseract אַרייַננעמען gImageReader, VietOCR און YAGF. צוויי דערקענונג ענדזשאַנז זענען געפֿינט: אַ קלאַסיש וואָס אנערקענט טעקסט אויף דער מדרגה פון יחיד כאַראַקטער פּאַטערנז, און אַ נייַע באזירט אויף די נוצן פון אַ מאַשין לערנען סיסטעם באזירט אויף אַ LSTM ריקעראַנט נעוראַל נעץ, אָפּטימיזעד פֿאַר דערקענען גאַנץ סטרינגס און אַלאַוינג אַ באַטייַטיק פאַרגרעסערן אין אַקיעראַסי. פאַרטיק טריינד מאָדעלס זענען ארויס פֿאַר 123 שפּראַכן. צו אַפּטאַמייז פאָרשטעלונג, מאַדזשולז ניצן OpenMP און SIMD ינסטראַקשאַנז AVX2, AVX, AVX512F, NEON אָדער SSE4.1 זענען געפֿינט.

הויפּט ימפּרווומאַנץ:

  • Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
  • В сервере ScrollView в качестве приоритетного протокола задействован TCP.
  • При использовании команды «combine_tessdata -d» обеспечен вывод в поток stdout вместо stderr.
  • Устранены проблемы со сборкой при использовании autoconf и clang.

מקור: opennet.ru

לייגן אַ באַמערקונג