ٽيڪسٽ ريڪگنيشن سسٽم جو رليز Tesseract 5.1

Tesseract 5.1 آپٽيڪل ٽيڪسٽ ريڪگنيشن سسٽم جو رليز شايع ڪيو ويو آهي، 8 کان وڌيڪ ٻولين ۾ UTF-100 اکرن ۽ متن جي سڃاڻپ جي حمايت ڪندي، بشمول روسي، قازق، بيلاروسي ۽ يوڪريني. نتيجو سادي متن ۾ يا HTML (hOCR)، ALTO (XML)، PDF ۽ TSV فارميٽ ۾ محفوظ ڪري سگھجي ٿو. سسٽم اصل ۾ 1985-1995 ۾ Hewlett Packard ليبارٽري ۾ ٺاهيو ويو؛ 2005 ۾، ڪوڊ اپاچي لائسنس تحت کوليو ويو ۽ گوگل ملازمن جي شموليت سان اڳتي وڌايو ويو. پروجيڪٽ جو سورس ڪوڊ Apache 2.0 لائسنس تحت ورهايو ويو آهي.

Tesseract ۾ هڪ ڪنسول يوٽيلٽي ۽ libtesseract لائبريري شامل آهي او سي آر ڪارڪردگي کي ٻين ايپليڪيشنن ۾ شامل ڪرڻ لاءِ. ٽئين پارٽي جي GUI انٽرفيس جيڪي Tesseract کي سپورٽ ڪن ٿا شامل آهن gImageReader، VietOCR ۽ YAGF. ٻه شناختي انجڻ پيش ڪيا ويا آهن: هڪ کلاسک جيڪو انفرادي ڪردار جي نمونن جي سطح تي متن کي سڃاڻي ٿو، ۽ هڪ نئون هڪ مشين لرننگ سسٽم جي استعمال جي بنياد تي LSTM بار بار نيورل نيٽ ورڪ جي بنياد تي، سڀني تارن کي سڃاڻڻ جي لاءِ بهتر ڪيو ويو آهي ۽ هڪ لاءِ اجازت ڏئي ٿو. درستگي ۾ اهم واڌارو. تيار ڪيل تربيتي ماڊل 123 ٻولين لاءِ شايع ڪيا ويا آهن. ڪارڪردگي کي بهتر ڪرڻ لاء، ماڊل استعمال ڪندي OpenMP ۽ SIMD هدايتون AVX2، AVX، NEON يا SSE4.1 پيش ڪيا ويا آهن.

Tesseract 5.1 ۾ اهم سڌارا:

  • ALTO، hOCR ۽ ٽيڪسٽ فارميٽ ۾ ٻاھر ڪڍڻ دوران تصويرن ۽ لائينن سان علائقن کي پروسيس ڪرڻ جي صلاحيت لاڳو ڪئي وئي آھي.
  • شامل ڪيو ويو نئون پيٽرول curl_timeout lkz curl_easy_setop.
  • بهتر تعميراتي نظام.
  • غير استعمال ٿيل ڪوڊ کي هٽائڻ لاء ڪم ڪيو ويو آهي
  • PageIterator::Orientation class ۾ null pointers جي غلط ھٿ ڪرڻ سبب مقرر ٿيل حادثا.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو