سیکورٹی اور رازداری کے لیے قابل توسیع ڈیٹا کی درجہ بندی

سیکورٹی اور رازداری کے لیے قابل توسیع ڈیٹا کی درجہ بندی

مواد پر مبنی ڈیٹا کی درجہ بندی ایک کھلا مسئلہ ہے۔ روایتی ڈیٹا نقصان کی روک تھام (DLP) سسٹم متعلقہ ڈیٹا کو فنگر پرنٹ کرکے اور فنگر پرنٹنگ کے اختتامی مقامات کی نگرانی کرکے اس مسئلے کو حل کرتے ہیں۔ فیس بک پر ڈیٹا کے وسائل کو مسلسل تبدیل کرنے کی بڑی تعداد کو دیکھتے ہوئے، یہ نقطہ نظر نہ صرف قابل توسیع نہیں ہے، بلکہ یہ تعین کرنے کے لیے بھی غیر موثر ہے کہ ڈیٹا کہاں رہتا ہے۔ اس مقالے میں فیس بک میں حساس سیمنٹک اقسام کا بڑے پیمانے پر پتہ لگانے اور ڈیٹا اسٹوریج اور رسائی کنٹرول کو خود بخود نافذ کرنے کے لیے بنائے گئے اینڈ ٹو اینڈ سسٹم پر فوکس کیا گیا ہے۔

یہاں بیان کردہ نقطہ نظر ہمارا پہلا اینڈ ٹو اینڈ پرائیویسی سسٹم ہے جو Facebook پر تمام ڈیٹا کا نقشہ بنانے اور درجہ بندی کرنے کے لیے ڈیٹا سگنلز، مشین لرننگ، اور فنگر پرنٹنگ کی روایتی تکنیکوں کو شامل کرکے اس مسئلے کو حل کرنے کی کوشش کرتا ہے۔ بیان کردہ نظام ایک پیداواری ماحول میں چلایا جاتا ہے، جس میں پرائیویسی کی مختلف کلاسوں میں 2+ کا اوسط F0,9 سکور حاصل ہوتا ہے جبکہ درجنوں ریپوزٹریز میں ڈیٹا کے وسائل کی بڑی مقدار پر کارروائی ہوتی ہے۔ مشین لرننگ کی بنیاد پر سیکیورٹی اور رازداری کے لیے اسکیل ایبل ڈیٹا کی درجہ بندی پر Facebook کے ArXiv پیپر کا ترجمہ پیش کر رہا ہے۔

تعارف

آج، تنظیمیں متعدد فارمیٹس اور مقامات پر بڑی مقدار میں ڈیٹا اکٹھا اور ذخیرہ کرتی ہیں [1]، پھر ڈیٹا کو کئی جگہوں پر استعمال کیا جاتا ہے، بعض اوقات کئی بار کاپی یا کیش کیا جاتا ہے، جس کے نتیجے میں قیمتی اور حساس کاروباری معلومات بہت سے انٹرپرائز ڈیٹا میں بکھر جاتی ہیں۔ اسٹورز جب کسی تنظیم کو کچھ قانونی یا ریگولیٹری تقاضوں کو پورا کرنے کی ضرورت ہوتی ہے، جیسے کہ دیوانی کارروائیوں میں ضوابط کی تعمیل، تو یہ ضروری ہو جاتا ہے کہ مطلوبہ ڈیٹا کے مقام کے بارے میں ڈیٹا اکٹھا کیا جائے۔ جب رازداری کا ضابطہ یہ کہتا ہے کہ کسی تنظیم کو غیر مجاز اداروں کے ساتھ ذاتی معلومات کا اشتراک کرتے وقت تمام سوشل سیکیورٹی نمبرز (SSNs) کو ماسک کرنا چاہیے، تو فطری پہلا قدم تنظیم کے ڈیٹا اسٹورز میں تمام SSNs کو تلاش کرنا ہے۔ ایسے حالات میں، ڈیٹا کی درجہ بندی اہم ہو جاتی ہے [1]۔ درجہ بندی کا نظام تنظیموں کو خود بخود رازداری اور حفاظتی پالیسیاں نافذ کرنے کی اجازت دے گا، جیسے رسائی کنٹرول کی پالیسیوں کو فعال کرنا، ڈیٹا کو برقرار رکھنا۔ فیس بک ایک ایسا نظام متعارف کروا رہا ہے جسے ہم نے Facebook میں بنایا ہے جو حساس سیمنٹک ڈیٹا کی اقسام کو دریافت کرنے کے لیے متعدد ڈیٹا سگنلز، قابل توسیع نظام فن تعمیر، اور مشین لرننگ کا استعمال کرتا ہے۔

ڈیٹا کی دریافت اور درجہ بندی ڈیٹا کو تلاش کرنے اور لیبل لگانے کا عمل ہے تاکہ ضرورت پڑنے پر متعلقہ معلومات کو تیزی سے اور مؤثر طریقے سے حاصل کیا جا سکے۔ موجودہ عمل بجائے خود دستی نوعیت کا ہے اور متعلقہ قوانین یا ضوابط کی جانچ پر مشتمل ہے، اس بات کا تعین کرتا ہے کہ کس قسم کی معلومات کو حساس سمجھا جانا چاہیے اور حساسیت کی مختلف سطحیں کیا ہیں، اور پھر اس کے مطابق کلاسز اور درجہ بندی کی پالیسیاں بنانا [1]۔ ڈیٹا ضائع ہونے سے بچاؤ (DLP) پھر ڈیٹا کو فنگر پرنٹ کرتا ہے اور فنگر پرنٹس حاصل کرنے کے لیے نیچے کی طرف جانے والے اختتامی مقامات کی نگرانی کرتا ہے۔ ڈیٹا کے پیٹا بائٹس کے ساتھ اثاثے سے بھرے گودام سے نمٹنے کے دوران، یہ نقطہ نظر صرف پیمانے پر نہیں ہوتا ہے۔

ہمارا مقصد ڈیٹا کی درجہ بندی کا ایک ایسا نظام بنانا ہے جو ڈیٹا کی قسم یا فارمیٹ پر کسی اضافی پابندی کے بغیر، مضبوط اور عارضی صارف کے ڈیٹا دونوں کے مطابق ہو۔ یہ ایک بہادر مقصد ہے، اور قدرتی طور پر یہ چیلنجوں کے ساتھ آتا ہے۔ دیا گیا ڈیٹا ریکارڈ ہزاروں حروف کا ہو سکتا ہے۔

سیکورٹی اور رازداری کے لیے قابل توسیع ڈیٹا کی درجہ بندی
تصویر 1. آن لائن اور آف لائن پیشن گوئی کا بہاؤ

اس لیے، ہمیں فیچرز کے ایک مشترکہ سیٹ کا استعمال کرتے ہوئے اس کی مؤثر طریقے سے نمائندگی کرنی چاہیے جو بعد میں جوڑ کر آسانی سے ادھر ادھر منتقل ہو سکتے ہیں۔ یہ خصوصیات نہ صرف درست درجہ بندی فراہم کرتی ہیں، بلکہ مستقبل میں ڈیٹا کی نئی اقسام کو آسانی سے شامل کرنے اور دریافت کرنے کے لیے لچک اور توسیع بھی فراہم کرتی ہیں۔ دوم، آپ کو بڑے آف لائن ٹیبلز سے نمٹنے کی ضرورت ہے۔ پائیدار ڈیٹا کو میزوں میں ذخیرہ کیا جا سکتا ہے جو سائز میں بہت سے پیٹا بائٹس ہیں۔ اس کے نتیجے میں اسکین کی رفتار کم ہو سکتی ہے۔ تیسرا، ہمیں غیر مستحکم ڈیٹا پر سخت SLA درجہ بندی پر عمل کرنا چاہیے۔ یہ نظام کو انتہائی موثر، تیز اور درست ہونے پر مجبور کرتا ہے۔ آخر میں، ہمیں حقیقی وقت کی درجہ بندی کرنے کے ساتھ ساتھ انٹرنیٹ کے استعمال کے معاملات کے لیے اتار چڑھاؤ والے ڈیٹا کے لیے کم تاخیر والے ڈیٹا کی درجہ بندی فراہم کرنی چاہیے۔

یہ مقالہ بیان کرتا ہے کہ ہم نے اوپر کے چیلنجوں سے کیسے نمٹا اور ایک تیز اور قابل توسیع درجہ بندی کا نظام پیش کرتا ہے جو خصوصیات کے مشترکہ سیٹ کی بنیاد پر تمام اقسام، فارمیٹس اور ذرائع کے ڈیٹا عناصر کی درجہ بندی کرتا ہے۔ ہم نے سسٹم کے فن تعمیر کو بڑھایا اور آف لائن اور آن لائن ڈیٹا کو تیزی سے درجہ بندی کرنے کے لیے ایک حسب ضرورت مشین لرننگ ماڈل بنایا۔ اس مقالے کو اس طرح ترتیب دیا گیا ہے: سیکشن 2 نظام کے مجموعی ڈیزائن کو پیش کرتا ہے۔ سیکشن 3 مشین لرننگ سسٹم کے حصوں پر بحث کرتا ہے۔ سیکشن 4 اور 5 متعلقہ کام کو نمایاں کرتے ہیں اور کام کی مستقبل کی سمتوں کا خاکہ پیش کرتے ہیں۔

فن تعمیر

مستقل اور فیس بک کے پیمانے پر آن لائن ڈیٹا کے چیلنجوں سے نمٹنے کے لیے، درجہ بندی کے نظام میں دو الگ الگ سلسلے ہیں، جن پر ہم تفصیل سے بات کریں گے۔

پائیدار ڈیٹا

ابتدائی طور پر، سسٹم کو فیس بک کے بہت سے معلوماتی اثاثوں کے بارے میں جاننا چاہیے۔ ہر ذخیرے کے لیے، کچھ بنیادی معلومات اکٹھی کی جاتی ہیں، جیسے ڈیٹا سینٹر جس میں وہ ڈیٹا ہوتا ہے، اس ڈیٹا پر مشتمل سسٹم، اور مخصوص ڈیٹا ریپوزٹری میں موجود اثاثے۔ یہ ایک میٹا ڈیٹا کیٹلاگ بناتا ہے جو سسٹم کو دوسرے انجینئرز کے ذریعہ استعمال کردہ کلائنٹس اور وسائل کو اوور لوڈ کیے بغیر ڈیٹا کو موثر طریقے سے بازیافت کرنے کی اجازت دیتا ہے۔

یہ میٹا ڈیٹا کیٹلاگ تمام اسکین شدہ اثاثوں کے لیے ایک مستند ذریعہ فراہم کرتا ہے اور آپ کو مختلف اثاثوں کی حیثیت کو ٹریک کرنے کی اجازت دیتا ہے۔ اس معلومات کا استعمال کرتے ہوئے، نظام سے جمع کردہ ڈیٹا اور داخلی معلومات کی بنیاد پر نظام الاوقات کی ترجیح قائم کی جاتی ہے، جیسے کہ اثاثہ کو آخری بار کامیابی کے ساتھ اسکین کرنے کا وقت اور اسے بنانے کا وقت، ساتھ ہی اس اثاثہ کے لیے ماضی کی میموری اور CPU کی ضروریات اگر اس سے پہلے اسکین کیا گیا ہے. پھر، ہر ڈیٹا ریسورس کے لیے (جیسے جیسے وسائل دستیاب ہوتے ہیں)، ایک جاب کو اصل میں وسائل کو اسکین کرنے کے لیے کہا جاتا ہے۔

ہر کام ایک مرتب شدہ بائنری فائل ہے جو ہر اثاثے کے لیے دستیاب تازہ ترین ڈیٹا پر برنولی کے نمونے لیتی ہے۔ اثاثے کو انفرادی کالموں میں تقسیم کیا جاتا ہے، جہاں ہر کالم کے درجہ بندی کے نتیجے پر آزادانہ طور پر کارروائی کی جاتی ہے۔ مزید برآں، نظام کالموں کے اندر موجود کسی بھی سیر شدہ ڈیٹا کو اسکین کرتا ہے۔ JSON، arrays، انکوڈ شدہ ڈھانچے، URLs، بیس 64 سیریلائزڈ ڈیٹا، اور بہت کچھ سب کو اسکین کیا گیا ہے۔ اس سے اسکین پر عمل درآمد کے وقت میں نمایاں اضافہ ہوسکتا ہے کیونکہ ایک ٹیبل میں ایک بلاب میں ہزاروں نیسٹڈ کالم ہوسکتے ہیں۔ json.

ڈیٹا اثاثہ میں منتخب ہونے والی ہر قطار کے لیے، درجہ بندی کا نظام مواد سے فلوٹ اور ٹیکسٹ آبجیکٹ کو نکالتا ہے اور ہر آبجیکٹ کو واپس اس کالم سے منسلک کرتا ہے جہاں سے اسے لیا گیا تھا۔ فیچر نکالنے کے مرحلے کا آؤٹ پٹ ڈیٹا اثاثہ میں پائے جانے والے ہر کالم کے لیے تمام خصوصیات کا نقشہ ہے۔

نشانیاں کس کے لیے ہیں؟

صفات کا تصور کلیدی ہے۔ فلوٹ اور ٹیکسٹ ٹریٹس کے بجائے، ہم خام سٹرنگ کے نمونے پاس کر سکتے ہیں جو ہر ڈیٹا ریسورس سے براہ راست نکالے جاتے ہیں۔ اس کے علاوہ، مشین لرننگ ماڈلز کو ہر نمونے پر براہ راست تربیت دی جا سکتی ہے، بجائے اس کے کہ سینکڑوں فیچر کیلکولیشنز جو صرف نمونے کا تخمینہ لگانے کی کوشش کرتے ہیں۔ اس کی کئی وجوہات ہیں:

  1. سب سے پہلے رازداری: سب سے اہم بات یہ ہے کہ خصوصیات کا تصور ہمیں میموری میں صرف ان نمونوں کو ذخیرہ کرنے کی اجازت دیتا ہے جو ہم بازیافت کرتے ہیں۔ یہ اس بات کو یقینی بناتا ہے کہ ہم ایک ہی مقصد کے لیے نمونے ذخیرہ کرتے ہیں اور اپنی کوششوں سے کبھی بھی ان کو لاگ ان نہیں کرتے ہیں۔ یہ خاص طور پر غیر مستحکم ڈیٹا کے لیے اہم ہے، کیونکہ پیشن گوئی فراہم کرنے سے پہلے سروس کو درجہ بندی کی کچھ حالت برقرار رکھنی چاہیے۔
  2. یادداشت: کچھ نمونے ہزاروں حروف کے ہو سکتے ہیں۔ اس طرح کے ڈیٹا کو ذخیرہ کرنے اور اسے سسٹم کے حصوں میں منتقل کرنے میں غیر ضروری طور پر بہت سے اضافی بائٹس استعمال ہوتے ہیں۔ دونوں عوامل وقت کے ساتھ یکجا ہو سکتے ہیں، یہ دیکھتے ہوئے کہ ہزاروں کالموں کے ساتھ ڈیٹا کے بہت سے وسائل موجود ہیں۔
  3. فیچر ایگریگیشن: فیچرز فیچرز کے ایک سیٹ کے ذریعے ہر اسکین کے نتائج کو واضح طور پر پیش کرتے ہیں، جس سے سسٹم کو ایک ہی ڈیٹا ریسورس کے پچھلے اسکینز کے نتائج کو آسان طریقے سے یکجا کرنے کی اجازت ملتی ہے۔ یہ ایک سے زیادہ رنز میں ایک ہی ڈیٹا ریسورس سے اسکین کے نتائج کو جمع کرنے کے لیے مفید ہو سکتا ہے۔

اس کے بعد خصوصیات پیشین گوئی کی خدمت کو بھیجی جاتی ہیں جہاں ہم ہر کالم کے ڈیٹا لیبل کی پیش گوئی کرنے کے لیے اصول پر مبنی درجہ بندی اور مشین لرننگ کا استعمال کرتے ہیں۔ سروس اصول کی درجہ بندی کرنے والوں اور مشین لرننگ دونوں پر انحصار کرتی ہے اور ہر پیشین گوئی آبجیکٹ سے دی گئی بہترین پیشین گوئی کا انتخاب کرتی ہے۔

اصول کی درجہ بندی کرنے والے مینوئل ہورسٹکس ہوتے ہیں، وہ 0 سے 100 کی حد تک کسی چیز کو معمول پر لانے کے لیے حسابات اور گتانک کا استعمال کرتے ہیں۔ ایک بار جب اس ڈیٹا سے وابستہ ہر ڈیٹا کی قسم اور کالم کے نام کے لیے ایسا ابتدائی سکور تیار ہو جاتا ہے، تو یہ کسی بھی "پابندی" میں شامل نہیں ہوتا ہے۔ فہرستیں"، اصول کی درجہ بندی کرنے والا تمام ڈیٹا کی اقسام میں سے سب سے زیادہ نارمل اسکور کا انتخاب کرتا ہے۔

درجہ بندی کی پیچیدگی کی وجہ سے، مکمل طور پر دستی ہیورسٹکس پر انحصار کرنے سے درجہ بندی کی درستگی کم ہوتی ہے، خاص طور پر غیر ساختہ ڈیٹا کے لیے۔ اس وجہ سے، ہم نے غیر ساختہ ڈیٹا جیسے صارف کے مواد اور پتہ کی درجہ بندی کے ساتھ کام کرنے کے لیے ایک مشین لرننگ سسٹم تیار کیا۔ مشین لرننگ نے مینوئل ہورسٹکس سے ہٹنا اور اضافی ڈیٹا سگنلز (مثلاً کالم کے نام، ڈیٹا پرووینس) کو لاگو کرنا ممکن بنایا ہے، جس سے پتہ لگانے کی درستگی میں نمایاں بہتری آئی ہے۔ ہم بعد میں اپنے مشین لرننگ فن تعمیر میں گہرائی میں جائیں گے۔

پیشین گوئی سروس ہر کالم کے نتائج کو اسکین کے وقت اور حالت کے حوالے سے میٹا ڈیٹا کے ساتھ اسٹور کرتی ہے۔ اس ڈیٹا پر انحصار کرنے والے کوئی بھی صارفین اور ڈاؤن اسٹریم پروسیسز اسے روزانہ شائع شدہ ڈیٹا سیٹ سے پڑھ سکتے ہیں۔ یہ سیٹ ان تمام اسکین جابز، یا ریئل ٹائم ڈیٹا کیٹلاگ API کے نتائج کو جمع کرتا ہے۔ شائع شدہ پیشین گوئیاں رازداری اور حفاظتی پالیسیوں کے خودکار نفاذ کی بنیاد ہیں۔

آخر میں، پیشن گوئی سروس تمام ڈیٹا لکھنے اور تمام پیشین گوئیاں محفوظ کرنے کے بعد، ہمارا ڈیٹا کیٹلاگ API اصل وقت میں وسائل کے لیے ڈیٹا کی قسم کی تمام پیشین گوئیاں واپس کر سکتا ہے۔ ہر روز سسٹم ایک ڈیٹا سیٹ شائع کرتا ہے جس میں ہر اثاثہ کے لیے تمام تازہ ترین پیشین گوئیاں ہوتی ہیں۔

غیر مستحکم ڈیٹا

اگرچہ مذکورہ عمل مستقل اثاثوں کے لیے ڈیزائن کیا گیا ہے، غیر مستقل ٹریفک کو بھی کسی تنظیم کے ڈیٹا کا حصہ سمجھا جاتا ہے اور یہ اہم ہو سکتا ہے۔ اس وجہ سے، نظام کسی بھی وقفے وقفے سے ٹریفک کے لیے ریئل ٹائم درجہ بندی کی پیشین گوئیاں پیدا کرنے کے لیے ایک آن لائن API فراہم کرتا ہے۔ ریئل ٹائم پیشن گوئی کا نظام آؤٹ باؤنڈ ٹریفک، ان باؤنڈ ٹریفک کو مشین لرننگ ماڈلز اور مشتہر کے ڈیٹا میں درجہ بندی کرنے میں بڑے پیمانے پر استعمال ہوتا ہے۔

یہاں API دو اہم دلائل لیتا ہے: گروپنگ کلید اور خام ڈیٹا جس کی پیش گوئی کی جانی ہے۔ سروس وہی آبجیکٹ بازیافت کرتی ہے جیسا کہ اوپر بیان کیا گیا ہے اور ایک ہی کلید کے لیے اشیاء کو ایک ساتھ گروپ کرتا ہے۔ یہ خصوصیات ناکامی کی وصولی کے لیے استقامت کیشے میں بھی معاون ہیں۔ ہر گروپنگ کلید کے لیے، سروس اس بات کو یقینی بناتی ہے کہ اس نے پیشن گوئی سروس کو کال کرنے سے پہلے کافی نمونے دیکھے ہیں، اوپر بیان کردہ عمل کے بعد۔

کی اصلاح

کچھ سٹوریجز کو اسکین کرنے کے لیے، ہم ہاٹ سٹوریج سے پڑھنے کو بہتر بنانے کے لیے لائبریریوں اور تکنیکوں کا استعمال کرتے ہیں [2] اور اس بات کو یقینی بناتے ہیں کہ اسی اسٹوریج تک رسائی حاصل کرنے والے دوسرے صارفین کی طرف سے کوئی رکاوٹ نہ ہو۔

انتہائی بڑی میزوں (50+ پیٹا بائٹس) کے لیے، تمام اصلاح اور میموری کی کارکردگی کے باوجود، سسٹم میموری ختم ہونے سے پہلے ہر چیز کو اسکین کرنے اور گنتی کرنے کا کام کرتا ہے۔ سب کے بعد، اسکین کو مکمل طور پر میموری میں شمار کیا جاتا ہے اور اسکین کے دوران ذخیرہ نہیں کیا جاتا ہے۔ اگر بڑی میزوں میں ڈیٹا کے غیر ساختہ کلپس کے ساتھ ہزاروں کالم ہوتے ہیں، تو پوری میز پر پیشین گوئیاں کرتے وقت میموری کے وسائل کی کمی کی وجہ سے کام ناکام ہو سکتا ہے۔ اس کے نتیجے میں کوریج کم ہو جائے گی۔ اس کا مقابلہ کرنے کے لیے، ہم نے سسٹم کو اسکین کی رفتار کو بطور پراکسی استعمال کرنے کے لیے بہتر بنایا کہ سسٹم موجودہ کام کے بوجھ کو کتنی اچھی طرح سے ہینڈل کرتا ہے۔ ہم میموری کے مسائل کو دیکھنے اور خصوصیت کے نقشے کا اندازہ لگانے کے لیے پیشین گوئی کے طریقہ کار کے طور پر رفتار کا استعمال کرتے ہیں۔ اسی وقت، ہم معمول سے کم ڈیٹا استعمال کرتے ہیں۔

ڈیٹا سگنلز

درجہ بندی کا نظام صرف اتنا ہی اچھا ہے جتنا کہ ڈیٹا کے سگنلز۔ یہاں ہم درجہ بندی کے نظام کے ذریعے استعمال ہونے والے تمام سگنلز کو دیکھیں گے۔

  • مواد پر مبنی: یقینا، پہلا اور سب سے اہم اشارہ مواد ہے۔ Bernoulli سیمپلنگ ہر ڈیٹا اثاثہ پر کی جاتی ہے جسے ہم ڈیٹا کے مواد کی بنیاد پر اسکین اور خصوصیات نکالتے ہیں۔ بہت سی نشانیاں مواد سے آتی ہیں۔ تیرتی اشیاء کی کوئی بھی تعداد ممکن ہے، جو اس حساب کی نمائندگی کرتی ہے کہ ایک خاص نمونہ کی قسم کتنی بار دیکھی گئی ہے۔ مثال کے طور پر، ہمارے پاس نمونے میں نظر آنے والی ای میلز کی تعداد، یا نمونے میں کتنے ایموجیز دیکھے جانے کے نشانات ہو سکتے ہیں۔ ان فیچر کے حسابات کو مختلف اسکینوں میں نارمل اور اکٹھا کیا جا سکتا ہے۔
  • ڈیٹا پرووینس: ایک اہم سگنل جو پیرنٹ ٹیبل سے مواد تبدیل ہونے پر مدد کر سکتا ہے۔ ایک عام مثال ہیشڈ ڈیٹا ہے۔ جب چائلڈ ٹیبل میں ڈیٹا کو ہیش کیا جاتا ہے، تو یہ اکثر پیرنٹ ٹیبل سے آتا ہے، جہاں یہ صاف رہتا ہے۔ نسب کا ڈیٹا مخصوص قسم کے ڈیٹا کی درجہ بندی میں مدد کرتا ہے جب وہ واضح طور پر نہیں پڑھے جاتے ہیں یا اپ اسٹریم ٹیبل سے تبدیل ہوتے ہیں۔
  • تشریحات: ایک اور اعلیٰ معیار کا سگنل جو غیر ساختہ ڈیٹا کی شناخت میں مدد کرتا ہے۔ درحقیقت، تشریحات اور پرووینس ڈیٹا مختلف ڈیٹا اثاثوں میں صفات کو پھیلانے کے لیے مل کر کام کر سکتے ہیں۔ تشریحات غیر ساختہ ڈیٹا کے ماخذ کی شناخت میں مدد کرتی ہیں، جبکہ نسب کا ڈیٹا اس ڈیٹا کے پورے ذخیرہ میں بہاؤ کو ٹریک کرنے میں مدد کرتا ہے۔
  • ڈیٹا انجیکشن ایک ایسی تکنیک ہے جہاں خاص، ناقابل پڑھے جانے والے حروف کو جان بوجھ کر معلوم ڈیٹا کی اقسام کے معلوم ذرائع میں متعارف کرایا جاتا ہے۔ پھر، جب بھی ہم ایک ہی ناقابل پڑھے جانے والے کردار کی ترتیب کے ساتھ مواد کو اسکین کرتے ہیں، تو ہم اندازہ لگا سکتے ہیں کہ مواد اس معروف ڈیٹا کی قسم سے آیا ہے۔ یہ تشریحات کی طرح ایک اور کوالٹیٹیو ڈیٹا سگنل ہے۔ سوائے اس کے کہ مواد پر مبنی پتہ لگانے سے درج کردہ ڈیٹا کو دریافت کرنے میں مدد ملتی ہے۔

پیمائش میٹرکس

ایک اہم جزو میٹرکس کی پیمائش کے لیے ایک سخت طریقہ کار ہے۔ درجہ بندی میں بہتری کی تکرار کے لیے اہم میٹرکس ہر لیبل کی درستگی اور یاد کرنا ہیں، جس میں F2 سکور سب سے اہم ہے۔

ان میٹرکس کا حساب لگانے کے لیے، ڈیٹا اثاثوں کو لیبل لگانے کے لیے ایک آزاد طریقہ کار کی ضرورت ہے جو خود سسٹم سے آزاد ہو، لیکن اس کے ساتھ براہ راست موازنہ کے لیے استعمال کیا جا سکتا ہے۔ ذیل میں ہم بیان کرتے ہیں کہ ہم کس طرح Facebook سے زمینی سچائی جمع کرتے ہیں اور اسے اپنے درجہ بندی کے نظام کو تربیت دینے کے لیے استعمال کرتے ہیں۔

قابل اعتماد ڈیٹا اکٹھا کرنا

ہم ذیل میں درج ہر ایک ذریعہ سے اس کے اپنے جدول میں قابل اعتماد ڈیٹا جمع کرتے ہیں۔ ہر جدول اس مخصوص ذریعہ سے تازہ ترین مشاہدہ شدہ اقدار کو جمع کرنے کے لئے ذمہ دار ہے۔ ہر ماخذ میں ڈیٹا کوالٹی کی جانچ پڑتال ہوتی ہے تاکہ یہ یقینی بنایا جا سکے کہ ہر ماخذ کے لیے مشاہدہ شدہ قدریں اعلیٰ معیار کی ہیں اور ان میں تازہ ترین ڈیٹا ٹائپ لیبلز شامل ہیں۔

  • لاگنگ پلیٹ فارم کنفیگریشنز: Hive ٹیبلز میں کچھ فیلڈز ایسے ڈیٹا سے بھرے ہوتے ہیں جو ایک مخصوص قسم کے ہوتے ہیں۔ اس ڈیٹا کا استعمال اور پھیلانا سچائی کے قابل اعتماد ذریعہ کے طور پر کام کرتا ہے۔
  • دستی لیبلنگ: سسٹم کو برقرار رکھنے والے ڈویلپرز کے ساتھ ساتھ بیرونی لیبلرز کو کالموں پر لیبل لگانے کی تربیت دی جاتی ہے۔ یہ عام طور پر گودام میں موجود تمام قسم کے ڈیٹا کے لیے اچھی طرح سے کام کرتا ہے، اور کچھ غیر ساختہ ڈیٹا، جیسے کہ پیغام کا ڈیٹا یا صارف کے مواد کے لیے سچائی کا بنیادی ذریعہ ہو سکتا ہے۔
  • پیرنٹ ٹیبلز کے کالم کو مخصوص ڈیٹا پر مشتمل کے طور پر نشان زد یا تشریح کیا جا سکتا ہے، اور ہم اس ڈیٹا کو بچوں کے ٹیبلز میں ٹریک کر سکتے ہیں۔
  • پھانسی کے دھاگوں کی بازیافت: فیس بک میں عمل درآمد کے دھاگوں میں مخصوص قسم کا ڈیٹا ہوتا ہے۔ اپنے اسکینر کو بطور سروس آرکیٹیکچر استعمال کرتے ہوئے، ہم اس سلسلے کا نمونہ لے سکتے ہیں جن میں ڈیٹا کی قسمیں معلوم ہیں اور انہیں سسٹم کے ذریعے بھیج سکتے ہیں۔ سسٹم اس ڈیٹا کو ذخیرہ نہ کرنے کا وعدہ کرتا ہے۔
  • نمونے کی میزیں: بڑے چھتے کی میزیں، جو کہ پورے ڈیٹا کارپس پر مشتمل ہیں، کو تربیتی ڈیٹا کے طور پر بھی استعمال کیا جا سکتا ہے اور بطور سروس سکینر کے ذریعے بھیجا جا سکتا ہے۔ ڈیٹا کی قسموں کی مکمل رینج والی ٹیبلز کے لیے یہ بہت اچھا ہے، تاکہ بے ترتیب کالم کا نمونہ لینا اس ڈیٹا کی قسم کے پورے سیٹ کے نمونے لینے کے مترادف ہے۔
  • مصنوعی ڈیٹا: ہم ایسی لائبریریاں بھی استعمال کر سکتے ہیں جو پرواز پر ڈیٹا تیار کرتی ہیں۔ یہ سادہ، عوامی ڈیٹا کی اقسام جیسے ایڈریس یا GPS کے لیے اچھی طرح کام کرتا ہے۔
  • ڈیٹا اسٹیورڈز: پرائیویسی پروگرام عام طور پر ڈیٹا اسٹیورڈز کو ڈیٹا کے ٹکڑوں کو دستی طور پر پالیسیاں تفویض کرنے کے لیے استعمال کرتے ہیں۔ یہ سچائی کے انتہائی درست ذریعہ کے طور پر کام کرتا ہے۔

ہم سچائی کے ہر بڑے ماخذ کو اس تمام ڈیٹا کے ساتھ ایک کارپس میں جوڑ دیتے ہیں۔ درستگی کے ساتھ سب سے بڑا چیلنج یہ یقینی بنانا ہے کہ یہ ڈیٹا ریپوزٹری کا نمائندہ ہے۔ بصورت دیگر، درجہ بندی کے انجن اوور ٹرین ہو سکتے ہیں۔ اس کا مقابلہ کرنے کے لیے، مذکورہ بالا تمام ذرائع کو تربیت کے ماڈلز یا میٹرکس کا حساب لگاتے وقت توازن کو یقینی بنانے کے لیے استعمال کیا جاتا ہے۔ اس کے علاوہ، انسانی لیبلرز یکساں طور پر ذخیرہ میں مختلف کالموں کا نمونہ بناتے ہیں اور اس کے مطابق ڈیٹا کو لیبل کرتے ہیں تاکہ زمینی سچائی کا مجموعہ غیر جانبدارانہ رہے۔

مسلسل انضمام

تیز رفتار تکرار اور بہتری کو یقینی بنانے کے لیے، نظام کی کارکردگی کو ہمیشہ حقیقی وقت میں ناپنا ضروری ہے۔ ہم آج سسٹم کے خلاف درجہ بندی میں ہونے والی ہر بہتری کی پیمائش کر سکتے ہیں، اس لیے ہم اعداد و شمار کی بنیاد پر مستقبل میں بہتری کی حکمت عملی سے رہنمائی کر سکتے ہیں۔ یہاں ہم دیکھتے ہیں کہ سسٹم فیڈ بیک لوپ کو کیسے مکمل کرتا ہے جو درست ڈیٹا کے ذریعے فراہم کیا جاتا ہے۔

جب نظام الاوقات کا نظام کسی ایسے اثاثے کا سامنا کرتا ہے جس پر ایک قابل اعتماد ذریعہ سے لیبل ہوتا ہے، تو ہم دو کاموں کو شیڈول کرتے ہیں۔ سب سے پہلے ہمارے پروڈکشن سکینر اور اس طرح ہماری پیداواری صلاحیتوں کا استعمال کرتا ہے۔ دوسرا کام جدید ترین خصوصیات کے ساتھ جدید ترین بلڈ اسکینر کا استعمال کرتا ہے۔ ہر ٹاسک اپنا آؤٹ پٹ اپنے ٹیبل پر لکھتا ہے، درجہ بندی کے نتائج کے ساتھ ورژنز کو ٹیگ کرتا ہے۔

اس طرح ہم ریلیز امیدوار کے درجہ بندی کے نتائج اور حقیقی وقت میں پروڈکشن ماڈل کا موازنہ کرتے ہیں۔

جب کہ ڈیٹا سیٹس RC اور PROD خصوصیات کا موازنہ کرتے ہیں، پیشین گوئی سروس کے ML درجہ بندی کے انجن کے بہت سے تغیرات لاگ ان ہیں۔ حال ہی میں بنایا گیا مشین لرننگ ماڈل، پروڈکشن میں موجودہ ماڈل، اور کوئی بھی تجرباتی ماڈل۔ ایک ہی نقطہ نظر ہمیں ماڈل کے مختلف ورژنوں کو "ٹکڑا" کرنے کی اجازت دیتا ہے (ہمارے اصول کی درجہ بندی کرنے والوں کے مطابق) اور حقیقی وقت میں میٹرکس کا موازنہ کریں۔ اس سے یہ تعین کرنا آسان ہو جاتا ہے کہ ایم ایل تجربہ کب پیداوار میں جانے کے لیے تیار ہے۔

ہر رات، اس دن کے لیے حساب کی گئی RC خصوصیات ML ٹریننگ پائپ لائن کو بھیجی جاتی ہیں، جہاں ماڈل کو جدید ترین RC خصوصیات پر تربیت دی جاتی ہے اور زمینی سچائی ڈیٹا سیٹ کے خلاف اس کی کارکردگی کا جائزہ لیا جاتا ہے۔

ہر صبح، ماڈل تربیت مکمل کرتا ہے اور خود بخود ایک تجرباتی ماڈل کے طور پر شائع ہوتا ہے۔ یہ خود بخود تجرباتی فہرست میں شامل ہو جاتا ہے۔

کچھ نتائج

100 سے زیادہ مختلف قسم کے ڈیٹا کو اعلی درستگی کے ساتھ لیبل کیا گیا ہے۔ اچھی ساختہ اقسام جیسے ای میلز اور فون نمبرز کی درجہ بندی 2 سے زیادہ کے f0,95 سکور کے ساتھ کی جاتی ہے۔ مفت ڈیٹا کی اقسام جیسے کہ صارف کا تیار کردہ مواد اور نام بھی بہت اچھی کارکردگی کا مظاہرہ کرتے ہیں، F2 اسکور 0,85 سے زیادہ ہوتے ہیں۔

مستقل اور غیر مستحکم ڈیٹا کے انفرادی کالموں کی ایک بڑی تعداد کو روزانہ تمام ذخیروں میں درجہ بندی کیا جاتا ہے۔ 500 سے زیادہ ڈیٹا گوداموں میں روزانہ 10 سے زیادہ ٹیرا بائٹس اسکین کیے جاتے ہیں۔ ان ذخیروں میں سے زیادہ تر کی کوریج 98% سے زیادہ ہے۔

وقت گزرنے کے ساتھ، درجہ بندی بہت کارآمد ہو گئی ہے، ایک مستقل آف لائن سلسلہ میں درجہ بندی کی ملازمتیں ہر کالم کے لیے کسی اثاثے کو اسکین کرنے سے لے کر پیشین گوئیوں کا حساب لگانے تک اوسطاً 35 سیکنڈ لیتی ہیں۔

سیکورٹی اور رازداری کے لیے قابل توسیع ڈیٹا کی درجہ بندی
چاول۔ 2. آر سی اشیاء کو کس طرح تیار کیا جاتا ہے اور ماڈل کو بھیجا جاتا ہے یہ سمجھنے کے لیے مسلسل انضمام کے بہاؤ کو بیان کرنے والا خاکہ۔

سیکورٹی اور رازداری کے لیے قابل توسیع ڈیٹا کی درجہ بندی
تصویر 3. مشین لرننگ جزو کا اعلیٰ سطحی خاکہ۔

مشین لرننگ سسٹم کا جزو

پچھلے حصے میں، ہم نے مجموعی نظام کے فن تعمیر، ہائی لائٹنگ اسکیل، آپٹیمائزیشن، اور آف لائن اور آن لائن ڈیٹا کے بہاؤ میں گہرا غوطہ لگایا۔ اس حصے میں، ہم پیشن گوئی کی خدمت کو دیکھیں گے اور مشین لرننگ سسٹم کی وضاحت کریں گے جو پیشن گوئی کی خدمت کو طاقت دیتا ہے۔

100 سے زیادہ ڈیٹا کی اقسام اور کچھ غیر ساختہ مواد جیسے کہ پیغام کا ڈیٹا اور صارف کے مواد کے ساتھ، خالصتاً دستی ہیورسٹکس کا استعمال ذیلی پیرا میٹرک درجہ بندی کی درستگی میں ہوتا ہے، خاص طور پر غیر ساختہ ڈیٹا کے لیے۔ اس وجہ سے، ہم نے غیر ساختہ ڈیٹا کی پیچیدگیوں سے نمٹنے کے لیے ایک مشین لرننگ سسٹم بھی تیار کیا ہے۔ مشین لرننگ کا استعمال آپ کو دستی ہیورسٹکس سے دور ہونے اور درستگی کو بہتر بنانے کے لیے خصوصیات اور اضافی ڈیٹا سگنلز (مثال کے طور پر کالم کے نام، ڈیٹا کی اصل) کے ساتھ کام کرنے کی اجازت دیتا ہے۔

نافذ شدہ ماڈل گھنے اور ویرل اشیاء پر ویکٹر کی نمائندگی [3] کا الگ الگ مطالعہ کرتا ہے۔ اس کے بعد ان کو ملا کر ایک ویکٹر بنایا جاتا ہے، جو کہ حتمی نتیجہ پیدا کرنے کے لیے بیچ نارملائزیشن [4] اور نان لائنیرٹی مراحل سے گزرتا ہے۔ حتمی نتیجہ ہر لیبل کے لیے [0-1] کے درمیان ایک فلوٹنگ پوائنٹ نمبر ہے، جو اس امکان کی نشاندہی کرتا ہے کہ مثال اس حساسیت کی قسم سے تعلق رکھتی ہے۔ ماڈل کے لیے PyTorch کا استعمال ہمیں تیزی سے آگے بڑھنے کا موقع دیتا ہے، جس سے ٹیم کے باہر کے ڈویلپرز کو تبدیلیاں کرنے اور جانچنے کی اجازت ملتی ہے۔

فن تعمیر کو ڈیزائن کرتے وقت، ان کے موروثی اختلافات کی وجہ سے ویرل (جیسے متن) اور گھنے (مثلاً عددی) اشیاء کو الگ الگ ماڈل بنانا ضروری تھا۔ حتمی فن تعمیر کے لیے، سیکھنے کی شرح، بیچ کے سائز، اور دیگر ہائپر پیرامیٹرس کے لیے بہترین قدر تلاش کرنے کے لیے پیرامیٹر سویپ کرنا بھی ضروری تھا۔ اصلاح کار کا انتخاب بھی ایک اہم ہائپر پیرامیٹر تھا۔ ہم نے پایا کہ ایک مقبول اصلاح کار آدماکثر overfitting کی طرف جاتا ہے، جبکہ کے ساتھ ایک ماڈل SGD زیادہ مستحکم. اضافی باریکیاں تھیں جو ہمیں براہ راست ماڈل میں شامل کرنا تھیں۔ مثال کے طور پر، جامد اصول جو اس بات کو یقینی بناتے ہیں کہ جب کسی خصوصیت کی کوئی خاص قدر ہوتی ہے تو ماڈل ایک تعییناتی پیشین گوئی کرتا ہے۔ یہ جامد قواعد ہمارے کلائنٹس کے ذریعہ بیان کیے گئے ہیں۔ ہم نے پایا کہ ان کو براہ راست ماڈل میں شامل کرنے کے نتیجے میں ایک زیادہ خود ساختہ اور مضبوط فن تعمیر ہوا، جیسا کہ ان خصوصی ایج کیسز کو سنبھالنے کے لیے پوسٹ پروسیسنگ قدم کو لاگو کرنے کے برخلاف ہے۔ یہ بھی یاد رکھیں کہ یہ قواعد تربیت کے دوران غیر فعال ہیں تاکہ تدریجی نزول کی تربیت کے عمل میں مداخلت نہ ہو۔

مسائل

چیلنجوں میں سے ایک اعلیٰ معیار کا، قابل اعتماد ڈیٹا اکٹھا کرنا تھا۔ ماڈل کو ہر کلاس کے لیے اعتماد کی ضرورت ہے تاکہ وہ اشیاء اور لیبلز کے درمیان تعلق سیکھ سکے۔ پچھلے حصے میں، ہم نے نظام کی پیمائش اور ماڈل ٹریننگ دونوں کے لیے ڈیٹا اکٹھا کرنے کے طریقوں پر تبادلہ خیال کیا۔ تجزیہ سے پتہ چلتا ہے کہ ہمارے گودام میں کریڈٹ کارڈ اور بینک اکاؤنٹ نمبر جیسی ڈیٹا کلاسز زیادہ عام نہیں ہیں۔ اس سے ماڈلز کو تربیت دینے کے لیے بڑی مقدار میں قابل اعتماد ڈیٹا اکٹھا کرنا مشکل ہو جاتا ہے۔ اس مسئلے کو حل کرنے کے لیے، ہم نے ان کلاسوں کے لیے مصنوعی زمینی سچائی کا ڈیٹا حاصل کرنے کے لیے عمل تیار کیا ہے۔ ہم حساس اقسام کے لیے اس طرح کا ڈیٹا تیار کرتے ہیں بشمول SSN, کریڈٹ کارڈ نمبر и IBAN-وہ نمبر جن کے لیے ماڈل پہلے پیش گوئی نہیں کر سکتا تھا۔ یہ نقطہ نظر اصل حساس ڈیٹا کو چھپانے سے وابستہ رازداری کے خطرات کے بغیر حساس ڈیٹا کی اقسام پر کارروائی کرنے کی اجازت دیتا ہے۔

زمینی سچائی کے مسائل کے علاوہ، کھلے آرکیٹیکچرل مسائل ہیں جن پر ہم کام کر رہے ہیں، جیسے تنہائی کو تبدیل کریں и ابتدائی سٹاپ. تبدیلی کی تنہائی اس بات کو یقینی بنانے کے لیے اہم ہے کہ جب نیٹ ورک کے مختلف حصوں میں مختلف تبدیلیاں کی جاتی ہیں تو اس کا اثر مخصوص طبقوں پر الگ تھلگ ہوتا ہے اور اس کا مجموعی طور پر پیشن گوئی کی کارکردگی پر وسیع اثر نہیں پڑتا ہے۔ قبل از وقت رکنے کے معیار کو بہتر بنانا بھی بہت ضروری ہے تاکہ ہم تربیت کے عمل کو تمام کلاسوں کے لیے ایک مستحکم مقام پر روک سکیں، بجائے اس کے کہ اس مقام پر جہاں کچھ کلاسز اوورٹرین کرتی ہیں اور کچھ نہیں کرتیں۔

خصوصیت کی اہمیت

جب کسی ماڈل میں کوئی نئی خصوصیت متعارف کرائی جاتی ہے، تو ہم اس کے ماڈل پر مجموعی اثرات کو جاننا چاہتے ہیں۔ ہم یہ بھی یقینی بنانا چاہتے ہیں کہ پیشین گوئیاں انسانی تشریح کے قابل ہوں تاکہ ہم یہ سمجھ سکیں کہ ہر قسم کے ڈیٹا کے لیے کن خصوصیات کا استعمال کیا جا رہا ہے۔ اس مقصد کے لیے ہم نے تیار کیا ہے اور متعارف کرایا ہے۔ کلاس کی طرف سے PyTorch ماڈل کے لیے خصوصیات کی اہمیت۔ نوٹ کریں کہ یہ مجموعی خصوصیت کی اہمیت سے مختلف ہے، جسے عام طور پر سپورٹ کیا جاتا ہے، کیونکہ یہ ہمیں نہیں بتاتا کہ کسی خاص طبقے کے لیے کون سی خصوصیات اہم ہیں۔ ہم آبجیکٹ کو دوبارہ ترتیب دینے کے بعد پیشین گوئی کی غلطی میں اضافے کا حساب لگا کر کسی چیز کی اہمیت کی پیمائش کرتے ہیں۔ ایک خصوصیت "اہم" ہوتی ہے جب اقدار کو تبدیل کرنے سے ماڈل کی خرابی بڑھ جاتی ہے کیونکہ اس معاملے میں ماڈل اپنی پیشن گوئی کرنے کے لیے خصوصیت پر انحصار کر رہا تھا۔ ایک خصوصیت "غیر اہم" ہوتی ہے جب اس کی اقدار کو تبدیل کرنے سے ماڈل کی غلطی کو کوئی تبدیلی نہیں ہوتی ہے، کیونکہ اس معاملے میں ماڈل نے اسے نظر انداز کیا [5]۔

ہر کلاس کے لیے خصوصیت کی اہمیت ہمیں ماڈل کو قابل تشریح بنانے کی اجازت دیتی ہے تاکہ ہم دیکھ سکیں کہ لیبل کی پیشن گوئی کرتے وقت ماڈل کیا دیکھ رہا ہے۔ مثال کے طور پر، جب ہم تجزیہ کرتے ہیں۔ ADDR، پھر ہم اس بات کی ضمانت دیتے ہیں کہ پتہ کے ساتھ منسلک نشان، جیسے ایڈریس لائنز شمار, ہر کلاس کے لیے خصوصیت کی اہمیت کے جدول میں اونچے درجے پر ہے تاکہ ہماری انسانی بصیرت اس ماڈل سے اچھی طرح میل کھاتی ہو جو اس نے سیکھی ہے۔

تشخیص

کامیابی کے لیے ایک میٹرک کی وضاحت کرنا ضروری ہے۔ ہم نے انتخاب کیا۔ F2 - یاد کرنے اور درستگی کے درمیان توازن (ریکال تعصب قدرے بڑا ہے)۔ پرائیویسی کے استعمال کے معاملے کے لیے درستگی سے زیادہ یاد کرنا اہم ہے کیونکہ ٹیم کے لیے یہ ضروری ہے کہ وہ کسی بھی حساس ڈیٹا سے محروم نہ رہے (جبکہ معقول درستگی کو یقینی بناتے ہوئے)۔ ہمارے ماڈل کی اصل F2 کارکردگی کا اندازہ اس مقالے کے دائرہ کار سے باہر ہے۔ تاہم، محتاط ٹیوننگ کے ساتھ ہم انتہائی اہم حساس کلاسوں کے لیے اعلی (0,9+) F2 سکور حاصل کر سکتے ہیں۔

متعلقہ کام

غیر ساختہ دستاویزات کی خودکار درجہ بندی کے لیے بہت سے الگورتھم موجود ہیں جن کا استعمال کرتے ہوئے مختلف طریقوں جیسے پیٹرن کی مماثلت، دستاویز کی مماثلت کی تلاش اور مختلف مشین سیکھنے کے طریقے (بایشین، ڈیسیکشن ٹری، کے-قریب ترین پڑوسی اور بہت سے دوسرے) [6]۔ ان میں سے کسی کو بھی درجہ بندی کے حصے کے طور پر استعمال کیا جا سکتا ہے۔ تاہم، مسئلہ توسیع پذیری کا ہے۔ اس مضمون میں درجہ بندی کا نقطہ نظر لچک اور کارکردگی کی طرف متعصب ہے۔ یہ ہمیں مستقبل میں نئی ​​کلاسوں کی حمایت کرنے اور تاخیر کو کم رکھنے کی اجازت دیتا ہے۔

ڈیٹا فنگر پرنٹنگ پر بھی بہت کام ہے۔ مثال کے طور پر، [7] میں مصنفین نے ایک ایسا حل بیان کیا جو حساس ڈیٹا لیکس کو پکڑنے کے مسئلے پر مرکوز ہے۔ بنیادی مفروضہ یہ ہے کہ ڈیٹا کو فنگر پرنٹ کیا جا سکتا ہے تاکہ اسے معلوم حساس ڈیٹا کے سیٹ سے ملایا جا سکے۔ [8] میں مصنفین رازداری کے رساو کے اسی طرح کے مسئلے کو بیان کرتے ہیں، لیکن ان کا حل ایک مخصوص اینڈرائیڈ فن تعمیر پر مبنی ہے اور صرف اس صورت میں درجہ بندی کیا جاتا ہے جب صارف کے اعمال کے نتیجے میں ذاتی معلومات کا اشتراک ہوتا ہے یا اگر بنیادی ایپلی کیشن صارف کا ڈیٹا لیک کرتی ہے۔ یہاں صورتحال کچھ مختلف ہے کیونکہ صارف کا ڈیٹا انتہائی غیر ساختہ بھی ہو سکتا ہے۔ لہذا، ہمیں فنگر پرنٹنگ سے زیادہ پیچیدہ تکنیک کی ضرورت ہے۔

آخر میں، کچھ قسم کے حساس ڈیٹا کے لیے ڈیٹا کی کمی سے نمٹنے کے لیے، ہم نے مصنوعی ڈیٹا متعارف کرایا۔ اعداد و شمار کو بڑھانے پر ادب کا ایک بڑا حصہ موجود ہے، مثال کے طور پر، [9] میں مصنفین نے تربیت کے دوران شور انجیکشن کے کردار کو تلاش کیا اور زیر نگرانی سیکھنے میں مثبت نتائج کا مشاہدہ کیا۔ رازداری سے متعلق ہمارا نقطہ نظر مختلف ہے کیونکہ شور مچانے والے ڈیٹا کو متعارف کروانا نقصان دہ ہو سکتا ہے، اور ہم اس کے بجائے اعلیٰ معیار کے مصنوعی ڈیٹا پر توجہ مرکوز کرتے ہیں۔

حاصل يہ ہوا

اس مقالے میں، ہم نے ایک ایسا نظام پیش کیا جو ڈیٹا کے ایک ٹکڑے کی درجہ بندی کر سکتا ہے۔ یہ ہمیں رازداری اور حفاظتی پالیسیوں کو نافذ کرنے کے لیے سسٹم بنانے کی اجازت دیتا ہے۔ ہم نے دکھایا ہے کہ توسیع پذیر بنیادی ڈھانچہ، مسلسل انضمام، مشین لرننگ اور اعلیٰ معیار کے ڈیٹا کی یقین دہانی ہمارے پرائیویسی کے بہت سے اقدامات کی کامیابی میں کلیدی کردار ادا کرتی ہے۔

مستقبل کے کام کے لیے بہت سی سمتیں ہیں۔ اس میں غیر اسکیمیٹائزڈ ڈیٹا (فائلوں) کے لیے معاونت فراہم کرنا، نہ صرف ڈیٹا کی قسم بلکہ حساسیت کی سطح کی درجہ بندی کرنا، اور درست مصنوعی مثالیں تیار کرکے تربیت کے دوران خود زیر نگرانی سیکھنے کا استعمال شامل ہوسکتا ہے۔ جو، بدلے میں، ماڈل کو زیادہ سے زیادہ نقصانات کو کم کرنے میں مدد کرے گا۔ مستقبل کا کام تفتیشی کام کے فلو پر بھی توجہ مرکوز کر سکتا ہے، جہاں ہم پتہ لگانے سے آگے بڑھتے ہیں اور رازداری کی مختلف خلاف ورزیوں کی بنیادی وجہ کا تجزیہ فراہم کرتے ہیں۔ اس سے حساسیت کے تجزیے جیسے معاملات میں مدد ملے گی (یعنی کہ آیا ڈیٹا کی قسم کی رازداری کی حساسیت زیادہ ہے (جیسے صارف کا IP) یا کم ہے (جیسے فیس بک کا اندرونی IP))۔

کتابیات

  1. ڈیوڈ بین ڈیوڈ، تمر ڈومنی، اور ابیگیل تریم۔ سیمنٹک ویب ٹیکنالوجیز کا استعمال کرتے ہوئے انٹرپرائز ڈیٹا کی درجہ بندی۔ پیٹر F.Ï Patel-Schneider، Yue Pan، Pascal Hitzler، Peter Mika، Lei Zhang، Jeff Z. Pan، Ian Horrocks، اور Birte Glimm، ایڈیٹرز میں، سیمنٹک ویب - ISWC 2010، صفحہ 66–81، برلن، ہائیڈلبرگ، 2010۔ اسپرنگر برلن ہائیڈلبرگ۔
  2. سبرامنیم مرلی دھر، وائٹ لائیڈ، سبیاساچی رائے، کوری ہل، ارنسٹ لن، ویوین لیو، ستادرو پین، شیوا شنکر، وشواناتھ شیوکمار، لنپینگ تانگ، اور سنجیو کمار۔ f4: فیس بک کا گرم BLOB اسٹوریج سسٹم۔ میں آپریٹنگ سسٹمز کے ڈیزائن اور نفاذ پر 11 واں USENIX سمپوزیم (OSDI 14)، صفحات 383–398، بروم فیلڈ، CO، اکتوبر 2014۔ USENIX ایسوسی ایشن۔
  3. ٹامس میکولوف، الیا سوٹسکیور، کائی چن، گریگ ایس کوراڈو، اور جیف ڈین۔ الفاظ اور فقروں کی تقسیم کردہ نمائندگی اور ان کی ساخت۔ C. J. C. Burges، L. Bottou، M. Welling، Z. Ghahramani، اور K. Q. Weinberger، ایڈیٹرز میں، نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت 26صفحہ 3111–3119۔ Curran Associates, Inc.، 2013.
  4. سرجی آئوفی اور کرسچن شیگیڈی۔ بیچ نارملائزیشن: اندرونی کوواریٹ شفٹ کو کم کرکے گہری نیٹ ورک کی تربیت کو تیز کرنا۔ فرانسس باخ اور ڈیوڈ بلی میں، ایڈیٹرز، مشین لرننگ پر 32ویں بین الاقوامی کانفرنس کی کارروائی، جلد 37 کا مشین لرننگ ریسرچ کی کارروائی، صفحات 448–456، للی، فرانس، 07–09 جولائی 2015۔ پی ایم ایل آر۔
  5. لیو بریمن۔ بے ترتیب جنگلات۔ مچ۔ سیکھیں۔، 45(1):5–32، اکتوبر 2001۔
  6. تھار نو فیو۔ ڈیٹا مائننگ میں درجہ بندی کی تکنیک کا سروے۔
  7. X. Shu, D. Yao, اور E. Bertino. حساس ڈیٹا کی نمائش کا رازداری کے تحفظ کا پتہ لگانا۔ انفارمیشن فارنزکس اور سیکیورٹی پر IEEE لین دین, 10(5):1092–1103, 2015.
  8. زیمین یانگ، من یانگ، یوآن ژانگ، گوفی گو، پینگ ننگ، اور ژیاوانگ وانگ۔ اپائنٹنٹ: پرائیویسی لیکیج کا پتہ لگانے کے لیے اینڈرائیڈ میں حساس ڈیٹا ٹرانسمیشن کا تجزیہ کرنا۔ صفحات 1043–1054، 11 2013۔
  9. Qizhe Xie، Zihang Dai، Eduard H. Hovy، Minh-Thang Luong، اور Quoc V. Le. غیر زیر نگرانی ڈیٹا بڑھانا۔

سیکورٹی اور رازداری کے لیے قابل توسیع ڈیٹا کی درجہ بندی
SkillFactory کے آن لائن کورسز لے کر مہارت اور تنخواہ کے لحاظ سے شروع سے یا لیول اپ کو مطلوبہ پیشہ حاصل کرنے کے بارے میں تفصیلات معلوم کریں:

مزید کورسز

ماخذ: www.habr.com

نیا تبصرہ شامل کریں