Текстти таануу системасынын чыгарылышы Tesseract 5.3.4

UTF-5.3.4 символдорун жана 8дөн ашык тилде, анын ичинде орус, казак, белорус жана украин тилдериндеги тексттерди таанууну колдогон Tesseract 100 оптикалык текстти таануу тутумунун релизи басылып чыкты. Натыйжа жөнөкөй текстте же HTML (hOCR), ALTO (XML), PDF жана TSV форматтарында сакталышы мүмкүн. Система алгач 1985-1995-жылдары Hewlett Packard лабораториясында түзүлгөн, 2005-жылы код Apache лицензиясынын алкагында ачылган жана андан ары Google кызматкерлеринин катышуусу менен иштелип чыккан. Долбоордун баштапкы коду Apache 2.0 лицензиясы боюнча таратылат.

Tesseract консолдук утилитаны жана OCR функциясын башка колдонмолорго киргизүү үчүн libtesseract китепканасын камтыйт. Tesseractти колдогон үчүнчү тараптын GUI интерфейстерине gImageReader, VietOCR жана YAGF кирет. Эки таануу кыймылдаткычы сунушталат: текстти жеке тамга үлгүлөрүнүн деңгээлинде тааныган классикалык жана жаңысы LSTM кайталануучу нейрон тармагына негизделген, бүт саптарды таануу үчүн оптималдаштырылган жана машинаны үйрөнүү системасын колдонууга негизделген жаңы. тактыгын олуттуу жогорулатуу. Даяр даярдалган моделдер 123 тилге чыгарылган. Ишти оптималдаштыруу үчүн OpenMP жана SIMD нускамаларын колдонгон модулдар AVX2, AVX, AVX512F, NEON же SSE4.1 сунушталат.

Негизги жакшыртуулар:

  • libcurl китепканасын колдонуу менен файлды жүктөп алуу менен URL аркылуу жакшыртылган сүрөт таануу. Жүктөп жатканда, Колдонуучу-Агенттин аталышы коюлат. Куки файлын колдонуу үчүн curl_cookiefile жаңы параметри кошулду.
  • ScrollView сервери TCP'ди артыкчылыктуу протокол катары колдонот.
  • "combine_tessdata -d" буйругун колдонууда, чыгаруу stderr ордуна stdout үчүн берилет.
  • Autoconf жана clang колдонууда түзүлүүчү көйгөйлөр оңдолду.

Source: opennet.ru

Комментарий кошуу