ٹیکسٹ ریکگنیشن سسٹم ٹیسریکٹ 4.1 کی ریلیز

تیار آپٹیکل ٹیکسٹ ریکگنیشن سسٹم کی رہائی ٹیسریکٹ 4.1، روسی، قازق، بیلاروسی اور یوکرینی سمیت 8 سے زیادہ زبانوں میں UTF-100 حروف اور متن کی شناخت کی حمایت کرتا ہے۔ نتیجہ سادہ متن میں یا HTML (hOCR)، ALTO (XML)، PDF اور TSV فارمیٹس میں محفوظ کیا جا سکتا ہے۔ یہ نظام اصل میں 1985-1995 میں ہیولٹ پیکارڈ لیبارٹری میں بنایا گیا تھا؛ 2005 میں، کوڈ کو اپاچی لائسنس کے تحت کھولا گیا تھا اور اسے گوگل کے ملازمین کی شرکت سے مزید تیار کیا گیا تھا۔ پروجیکٹ کے ذرائع پھیلاؤ اپاچی 2.0 کے تحت لائسنس یافتہ۔

Tesseract میں دیگر ایپلی کیشنز میں OCR فعالیت کو سرایت کرنے کے لیے کنسول یوٹیلیٹی اور libtesseract لائبریری شامل ہے۔ تیسرے فریق سے جو Tesseract کی حمایت کرتے ہیں۔ GUI انٹرفیس آپ نوٹ کر سکتے ہیں gImageReader, VietOCR и YAGF. دو شناختی انجن پیش کیے جاتے ہیں: ایک کلاسک جو انفرادی کریکٹر پیٹرن کی سطح پر متن کو پہچانتا ہے، اور ایک نیا LSTM ریکرنٹ نیورل نیٹ ورک پر مبنی مشین لرننگ سسٹم کے استعمال پر مبنی ہے، جو پوری تاروں کو پہچاننے کے لیے موزوں ہے اور اس کی اجازت دیتا ہے۔ درستگی میں نمایاں اضافہ۔ کے لیے تیار شدہ تربیت یافتہ ماڈل شائع کیے گئے ہیں۔ 123 زبانیں. کارکردگی کو بہتر بنانے کے لیے، OpenMP اور AVX2، AVX یا SSE4.1 SIMD ہدایات کا استعمال کرنے والے ماڈیولز پیش کیے جاتے ہیں۔

اہم بہتری ٹیسریکٹ 4.1 میں:

  • XML فارمیٹ میں آؤٹ پٹ کرنے کی صلاحیت شامل کی گئی۔ ALTO (تجزیہ شدہ لے آؤٹ اور ٹیکسٹ آبجیکٹ)۔ اس فارمیٹ کو استعمال کرنے کے لیے، آپ کو ایپلیکیشن کو "tessaract image_name alto output_dir" کے طور پر چلانا چاہیے۔
  • انجن کی تربیت کو آسان بناتے ہوئے، نئے رینڈرنگ ماڈیولز LSTMBox اور WordStrBox شامل کیے گئے۔
  • ایچ او سی آر (ایچ ٹی ایم ایل) آؤٹ پٹ میں سیوڈوگرافکس کے لیے معاونت شامل کی گئی۔
  • مشین لرننگ کی بنیاد پر انجن کو تربیت دینے کے لیے ازگر میں لکھے گئے متبادل اسکرپٹس کو شامل کیا گیا۔
  • AVX، AVX2 اور SSE ہدایات کا استعمال کرتے ہوئے توسیع شدہ اصلاح؛
  • کی وجہ سے اوپن ایم پی سپورٹ بطور ڈیفالٹ غیر فعال ہے۔ مسائل پیداوری کے ساتھ؛
  • LSTM انجن میں سفید اور کالی فہرستوں کے لیے شامل کردہ تعاون؛
  • Cmake کی بنیاد پر بہتر بنائے گئے اسکرپٹس۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں