ٽيڪسٽ ريڪگنيشن سسٽم جو رليز Tesseract 5.0

Tesseract 4.1 آپٽيڪل ٽيڪسٽ ريڪگنيشن سسٽم جو رليز شايع ڪيو ويو آهي، 8 کان وڌيڪ ٻولين ۾ UTF-100 اکرن ۽ متن جي سڃاڻپ جي حمايت ڪندي، بشمول روسي، قازق، بيلاروسي ۽ يوڪريني. نتيجو سادي متن ۾ يا HTML (hOCR)، ALTO (XML)، PDF ۽ TSV فارميٽ ۾ محفوظ ڪري سگھجي ٿو. سسٽم اصل ۾ 1985-1995 ۾ Hewlett Packard ليبارٽري ۾ ٺاهيو ويو؛ 2005 ۾، ڪوڊ اپاچي لائسنس تحت کوليو ويو ۽ گوگل ملازمن جي شموليت سان اڳتي وڌايو ويو. پروجيڪٽ جو سورس ڪوڊ Apache 2.0 لائسنس تحت ورهايو ويو آهي.

Tesseract ۾ هڪ ڪنسول يوٽيلٽي ۽ libtesseract لائبريري شامل آهي او سي آر ڪارڪردگي کي ٻين ايپليڪيشنن ۾ شامل ڪرڻ لاءِ. ٽئين پارٽي جي GUI انٽرفيس جيڪي Tesseract کي سپورٽ ڪن ٿا شامل آهن gImageReader، VietOCR ۽ YAGF. ٻه شناختي انجڻ پيش ڪيا ويا آهن: هڪ کلاسک جيڪو انفرادي ڪردار جي نمونن جي سطح تي متن کي سڃاڻي ٿو، ۽ هڪ نئون هڪ مشين لرننگ سسٽم جي استعمال جي بنياد تي LSTM بار بار نيورل نيٽ ورڪ جي بنياد تي، سڀني تارن کي سڃاڻڻ جي لاءِ بهتر ڪيو ويو آهي ۽ هڪ لاءِ اجازت ڏئي ٿو. درستگي ۾ اهم واڌارو. تيار ڪيل تربيتي ماڊل 123 ٻولين لاءِ شايع ڪيا ويا آهن. ڪارڪردگي کي بهتر ڪرڻ لاء، ماڊل استعمال ڪندي OpenMP ۽ SIMD هدايتون AVX2، AVX، NEON يا SSE4.1 پيش ڪيا ويا آهن.

Tesseract 5.0 ۾ اهم سڌارا:

  • نسخي نمبر ۾ هڪ اهم تبديلي API ۾ ڪيل تبديلين جي ڪري آهي جيڪا مطابقت کي ٽوڙيندي آهي. خاص طور تي، عوامي طور تي موجود libtesseract API هاڻي ملڪيت جي GenericVector ۽ STRING ڊيٽا جي قسمن سان ڳنڍيل ناهي، std::string ۽ std::vector جي حق ۾.
  • ماخذ متن جي وڻ کي ٻيهر منظم ڪيو ويو آهي. پبلڪ هيڊر فائلن کي منتقل ڪيو ويو آهي شامل / ٽيسرڪٽ ڊاريڪٽري ۾.
  • ميموري مئنيجمينٽ کي تبديل ڪيو ويو آهي، سڀ مالوڪ ۽ مفت ڪالون C++ ڪوڊ سان تبديل ڪيون ويون آهن. ڪوڊ جي عام جديديت ڪئي وئي آهي.
  • ARM ۽ ARM64 آرڪيٽيڪچرز لاءِ شامل ڪيل اصلاحون؛ ARM NEON هدايتون استعمال ڪيون وينديون آھن حسابن کي تيز ڪرڻ لاءِ. سڀني فن تعمير لاء عام ڪارڪردگي جي اصلاح ڪئي وئي آهي.
  • ٽريننگ ماڊلز ۽ ٽيڪسٽ جي سڃاڻپ لاءِ نوان طريقا، سچل پوائنٽ جي حسابن جي استعمال جي بنياد تي لاڳو ڪيا ويا آهن. نوان طريقا پيش ڪن ٿا اعلي ڪارڪردگي ۽ گھٽ ميموري واپرائڻ. LSTM انجڻ ۾، float32 فاسٽ موڊ ڊفالٽ طور فعال ڪيو ويو آهي.
  • اين ايف سي (نارملائيزيشن فارم ڪيننيڪل) فارم استعمال ڪندي يونيڪوڊ نارملائيزيشن کي استعمال ڪرڻ لاءِ هڪ منتقلي ڪئي وئي آهي.
  • لاگ تفصيل ترتيب ڏيڻ لاءِ اختيار شامل ڪيو ويو (--loglevel).
  • Autotools جي بنياد تي تعميراتي نظام کي نئين سر ترتيب ڏنو ويو آھي ۽ تبديل ڪيو ويو آھي تعمير ڪرڻ لاءِ غير ريسرسيو موڊ ۾.
  • Git ۾ "ماسٽر" شاخ جو نالو تبديل ڪيو ويو آهي "مکيه".
  • M1 چپ جي بنياد تي macOS ۽ ايپل سسٽم جي نئين رليز لاءِ سپورٽ شامل ڪئي وئي.

    جو ذريعو: opennet.ru

تبصرو شامل ڪريو