د متن پیژندنې سیسټم خوشې کول Tesseract 4.1

چمتو شوی د نظری متن پیژندنې سیسټم خوشې کول ټیسرکټ 4.1د روسیې، قزاق، بیلاروسی او اوکراین په شمول له 8 څخه زیاتو ژبو کې د UTF-100 حروفونو او متنونو پیژندلو ملاتړ کوي. پایله په ساده متن کې یا په HTML (hOCR) ، ALTO (XML) ، PDF او TSV فارمیټونو کې خوندي کیدی شي. دا سیسټم په اصل کې په 1985-1995 کې د Hewlett Packard په لابراتوار کې رامینځته شوی؛ په 2005 کې کوډ د اپاچي جواز لاندې پرانستل شو او د ګوګل کارمندانو په ګډون سره وده وکړه. د پروژې سرچینې خپراوی د اپاچی 2.0 لاندې جواز شوی.

Tesseract د نورو غوښتنلیکونو کې د OCR فعالیت ځای پرځای کولو لپاره د کنسول یوټیلیټ او د لیبټسیرکټ کتابتون شامل دي. د دریمې ډلې څخه چې د Tesseract ملاتړ کوي د GUI انٹرفیسونه تاسو کولی شئ یادونه وکړئ gImageReader, VietOCR и YAGF. د پیژندنې دوه انجنونه وړاندیز شوي: یو کلاسیک چې د انفرادي کرکټر نمونو په کچه متن پیژني، او یو نوی د ماشین زده کړې سیسټم کارولو پراساس د LSTM تکرار عصبي شبکې پراساس، د ټولو تارونو پیژندلو لپاره غوره شوی او اجازه ورکوي په دقت کې د پام وړ زیاتوالی. لپاره چمتو شوي روزل شوي ماډلونه خپاره شوي ۳۰ ژبې. د فعالیت غوره کولو لپاره، د OpenMP او AVX2، AVX یا SSE4.1 SIMD کارولو ماډلونه وړاندیز شوي.

اصلي پرمختګونه په Tesseract 4.1 کې:

  • په XML بڼه کې د تولید وړتیا اضافه کړه Alto (تحلیل شوی ترتیب او متن څیز). د دې فارمیټ کارولو لپاره، تاسو باید د "tessaract image_name alto output_dir" په توګه غوښتنلیک چل کړئ؛
  • د رینډینګ نوي ماډلونه LSTMBox او WordStrBox اضافه کړل، د انجن روزنه ساده کول؛
  • په hOCR (HTML) محصول کې د سیډوګرافیک لپاره ملاتړ اضافه شوی؛
  • د ماشین زده کړې پراساس د انجن روزنې لپاره په پایتون کې لیکل شوي بدیل سکریپټونه اضافه شوي؛
  • د AVX، AVX2 او SSE لارښوونو په کارولو سره پراخ شوي اصلاح کول؛
  • د OpenMP ملاتړ د ډیفالټ له امله غیر فعال دی ستونزې د تولید سره؛
  • په LSTM انجن کې د سپینو او تور لیستونو لپاره ملاتړ اضافه شوی؛
  • د Cmake پر بنسټ د جوړونې سکریپټونه ښه شوي.

سرچینه: opennet.ru

Add a comment