د متن پیژندنې سیسټم خوشې کول Tesseract 5.1

د Tesseract 5.1 آپټیکل متن پیژندنې سیسټم خپور شوی، د UTF-8 حروفونو او متنونو پیژندلو ملاتړ کوي په 100 ژبو کې، په شمول د روسیې، قزاق، بیلاروس او اوکراین. پایله په ساده متن کې یا په HTML (hOCR) ، ALTO (XML) ، PDF او TSV فارمیټونو کې خوندي کیدی شي. دا سیسټم په اصل کې په 1985-1995 کې د Hewlett Packard لابراتوار کې رامینځته شوی؛ په 2005 کې، کوډ د اپاچي جواز لاندې پرانستل شو او د ګوګل کارمندانو په ګډون سره نور هم پراختیا شو. د پروژې سرچینه کوډ د اپاچی 2.0 جواز لاندې ویشل شوی.

Tesseract د نورو غوښتنلیکونو کې د OCR فعالیت ځای پرځای کولو لپاره د کنسول یوټیلیټ او د لیبټسیرکټ کتابتون شامل دي. د دریمې ډلې GUI انٹرفیس چې د Tesseract ملاتړ کوي شامل دي gImageReader، VietOCR او YAGF. د پیژندنې دوه انجنونه وړاندیز شوي: یو کلاسیک چې د انفرادي کرکټر نمونو په کچه متن پیژني، او یو نوی د ماشین زده کړې سیسټم کارولو پراساس د LSTM تکرار عصبي شبکې پراساس، د ټولو تارونو پیژندلو لپاره غوره شوی او اجازه ورکوي په دقت کې د پام وړ زیاتوالی. د 123 ژبو لپاره چمتو شوي روزل شوي ماډلونه خپاره شوي. د فعالیت غوره کولو لپاره، د OpenMP او SIMD لارښوونې AVX2، AVX، NEON یا SSE4.1 کارولو ماډلونه وړاندیز شوي.

په Tesseract 5.1 کې لوی پرمختګونه:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • د جوړونې سیسټم ښه شوی.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

سرچینه: opennet.ru

Add a comment