سيڪيورٽي ۽ رازداري لاء اسڪيلبل ڊيٽا جي درجه بندي

سيڪيورٽي ۽ رازداري لاء اسڪيلبل ڊيٽا جي درجه بندي

مواد جي بنياد تي ڊيٽا جي درجه بندي هڪ کليل مسئلو آهي. روايتي ڊيٽا جي نقصان جي روڪٿام (DLP) سسٽم هن مسئلي کي حل ڪن ٿا فنگر پرنٽنگ سان لاڳاپيل ڊيٽا ۽ نگراني جي آخري پوائنٽن جي فنگر پرنٽنگ لاءِ. Facebook تي مسلسل تبديل ٿيندڙ ڊيٽا وسيلن جي وڏي تعداد کي نظر ۾ رکندي، هي طريقو نه صرف اسپيبلبل آهي، پر اهو طئي ڪرڻ لاءِ به غير موثر آهي ته ڊيٽا ڪٿي رهي ٿي. هي پيپر هڪ آخر کان آخر تائين سسٽم تي ڌيان ڏئي ٿو جيڪا Facebook ۾ حساس سيمينٽڪ قسم جي پيماني تي ڳولڻ ۽ خودڪار طريقي سان ڊيٽا اسٽوريج ۽ رسائي ڪنٽرول کي لاڳو ڪرڻ لاء ٺهيل آهي.

هتي بيان ڪيل طريقو اسان جو پهريون آخر کان آخر تائين پرائيويسي سسٽم آهي جيڪو هن مسئلي کي حل ڪرڻ جي ڪوشش ڪري ٿو ڊيٽا سگنل، مشين لرننگ، ۽ روايتي فنگر پرنٽنگ ٽيڪنڪ شامل ڪري Facebook تي سڀني ڊيٽا کي نقشي ۽ درجه بندي ڪرڻ لاءِ. بيان ڪيل سسٽم هڪ پيداواري ماحول ۾ هلائي ٿو، مختلف رازداري طبقن ۾ 2+ جو سراسري F0,9 سکور حاصل ڪري ٿو جڏهن ته ڪيترن ئي ذخيرن ۾ ڊيٽا وسيلن جي وڏي مقدار کي پروسيس ڪندي. فيس بوڪ جي ArXiv پيپر جو ترجمو پيش ڪري رهيا آهيون مشين لرننگ جي بنياد تي سيڪيورٽي ۽ رازداري لاءِ اسپيبلبل ڊيٽا جي درجه بندي تي.

تعارف

اڄ، تنظيمون مختلف فارميٽ ۽ هنڌن ۾ ڊيٽا جي وڏي مقدار کي گڏ ڪري ۽ ذخيرو ڪن ٿيون [1]، پوء ڊيٽا ڪيترن ئي هنڌن تي استعمال ڪيو ويندو آهي، ڪڏهن ڪڏهن نقل يا ڪيش ڪيو ويندو آهي ڪيترائي ڀيرا، نتيجي ۾ قيمتي ۽ حساس ڪاروباري معلومات ڪيترن ئي ادارن جي ڊيٽا ۾ پکڙيل آهي. اسٽور. جڏهن هڪ تنظيم کي ڪجهه قانوني يا ريگيوليٽري گهرجن کي پورو ڪرڻ جي ضرورت آهي، جهڙوڪ سول ڪارروائي ۾ ضابطن جي تعميل، اهو ضروري آهي ته گهربل ڊيٽا جي مقام بابت ڊيٽا گڏ ڪرڻ. جڏهن هڪ رازداري ضابطو ٻڌائي ٿو ته هڪ تنظيم کي لازمي طور تي سڀني سماجي سيڪيورٽي نمبرن (SSNs) کي ماسڪ ڪرڻ گهرجي جڏهن غير مجاز ادارن سان ذاتي معلومات شيئر ڪري ٿي، قدرتي پهريون قدم اهو آهي ته تنظيم جي ڊيٽا اسٽورن تي سڀني SSNs کي ڳولھيو. اهڙين حالتن ۾، ڊيٽا جي درجه بندي نازڪ ٿي ويندي آهي [1]. درجه بندي سسٽم تنظيمن کي اجازت ڏيندو ته هو خودڪار طريقي سان رازداري ۽ سيڪيورٽي پاليسين کي لاڳو ڪن، جهڙوڪ رسائي ڪنٽرول پاليسين کي فعال ڪرڻ، ڊيٽا برقرار رکڻ. Facebook هڪ سسٽم متعارف ڪرايو آهي جيڪو اسان Facebook تي ٺاهيو آهي جيڪو استعمال ڪري ٿو گھڻا ڊيٽا سگنل، اسپيبلبل سسٽم آرڪيٽيڪچر، ۽ مشين لرننگ کي حساس سيمينٽڪ ڊيٽا جي قسمن کي ڳولڻ لاء.

ڊيٽا دريافت ۽ درجه بندي ڊيٽا کي ڳولڻ ۽ ليبل ڪرڻ جو عمل آهي ته جيئن لاڳاپيل معلومات کي جلدي ۽ موثر طريقي سان حاصل ڪري سگهجي جڏهن ضرورت هجي. موجوده عمل فطرت ۾ بلڪه دستوري آهي ۽ لاڳاپيل قانونن يا ضابطن کي جانچڻ تي مشتمل آهي، اهو طئي ڪرڻ ته ڪهڙي قسم جي معلومات کي حساس سمجهيو وڃي ۽ حساسيت جا مختلف درجا ڪهڙا آهن، ۽ پوءِ ان مطابق طبقن ۽ درجه بندي پاليسين کي ترتيب ڏيڻ تي مشتمل آهي [1]. ڊيٽا جي نقصان جي روڪٿام (DLP) پوءِ ڊيٽا کي فنگر پرنٽس ڏئي ٿو ۽ فنگر پرنٽس حاصل ڪرڻ لاءِ هيٺئين دڙي جي آخري پوائنٽن کي مانيٽر ڪري ٿو. جڏهن ڊيٽا جي پيٽابيٽس سان گڏ هڪ اثاثن جي ڳري گودام سان معاملو ڪندي، اهو طريقو صرف پيماني تي نه آهي.

اسان جو مقصد هڪ ڊيٽا جي درجه بندي سسٽم ٺاهڻ آهي جيڪو ڊيٽا جي قسم يا فارميٽ تي ڪنهن به اضافي پابنديون کان سواء، مضبوط ۽ عارضي صارف ڊيٽا ٻنهي کي ماپ ڪري ٿو. هي هڪ بيحد مقصد آهي، ۽ قدرتي طور تي اهو چئلينج سان گڏ اچي ٿو. هڪ ڏنل ڊيٽا رڪارڊ هزارين اکر ڊگهو ٿي سگهي ٿو.

سيڪيورٽي ۽ رازداري لاء اسڪيلبل ڊيٽا جي درجه بندي
شڪل 1. آن لائن ۽ آف لائن اڳڪٿي ڪرڻ وارو وهڪرو

تنهن ڪري، اسان کي لازمي طور تي ان جي نمائندگي ڪرڻ گهرجي خاصيتن جي هڪ عام سيٽ کي استعمال ڪندي جيڪا بعد ۾ گڏيل ٿي سگهي ٿي ۽ آساني سان چوڌاري منتقل ٿي سگهي ٿي. انهن خاصيتن کي نه رڳو صحيح درجه بندي مهيا ڪرڻ گهرجي، پر مستقبل ۾ نئين ڊيٽا جي قسمن کي آساني سان شامل ڪرڻ ۽ دريافت ڪرڻ لاء لچڪدار ۽ وسعت پڻ فراهم ڪن. ٻيو، توهان کي وڏي آف لائن جدولن سان معاملو ڪرڻو پوندو. پائيدار ڊيٽا کي ٽيبل ۾ محفوظ ڪري سگھجي ٿو جيڪي سائيز ۾ ڪيترائي پيٽابائٽس آھن. اهو نتيجو ٿي سگهي ٿو سست اسڪين جي رفتار. ٽيون، اسان کي لازمي طور تي سخت SLA درجه بندي تي عمل ڪرڻ گهرجي غير مستحڪم ڊيٽا. هي سسٽم کي انتهائي موثر، تيز ۽ درست ڪرڻ جي قوت ڏئي ٿو. آخرڪار، اسان کي لازمي طور تي گھٽ ويڪرائي ڊيٽا جي درجه بندي مهيا ڪرڻ گهرجي غير مستحڪم ڊيٽا لاءِ حقيقي وقت جي درجه بندي کي انجام ڏيڻ لاءِ ۽ انهي سان گڏ انٽرنيٽ استعمال جي ڪيسن لاءِ.

هي پيپر بيان ڪري ٿو ته اسان مٿين چيلينجز سان ڪيئن ڊيل ڪيو ۽ هڪ تيز ۽ اسپيبلبل درجه بندي سسٽم پيش ڪري ٿو جيڪو سڀني قسمن جي ڊيٽا عناصر، فارميٽ، ۽ ذريعن جي خاصيتن جي عام سيٽ جي بنياد تي درجه بندي ڪري ٿو. اسان سسٽم جي فن تعمير کي وڌايو ۽ جلدي آف لائن ۽ آن لائن ڊيٽا کي درجه بندي ڪرڻ لاءِ ڪسٽم مشين لرننگ ماڊل ٺاهيو. هي پيپر هن ريت ترتيب ڏنو ويو آهي: سيڪشن 2 سسٽم جي مجموعي ڊيزائن کي پيش ڪري ٿو. سيڪشن 3 مشين لرننگ سسٽم جي حصن تي بحث ڪري ٿو. سيڪشن 4 ۽ 5 لاڳاپيل ڪم کي نمايان ڪن ٿا ۽ ڪم جي مستقبل جي هدايتن کي بيان ڪن ٿا.

تعمير

مسلسل ۽ Facebook-اسڪيل آن لائين ڊيٽا جي چئلينج کي منهن ڏيڻ لاء، درجه بندي سسٽم ۾ ٻه الڳ اسٽريم آهن، جن تي اسين تفصيل سان بحث ڪنداسين.

پائيدار ڊيٽا

شروعات ۾، سسٽم کي Facebook جي ڪيترن ئي معلوماتي اثاثن بابت ڄاڻڻ گهرجي. هر هڪ مخزن لاءِ، ڪجهه بنيادي معلومات گڏ ڪئي ويندي آهي، جهڙوڪ ڊيٽا سينٽر جنهن ۾ ڊيٽا هوندي آهي، سسٽم جنهن ۾ ڊيٽا هوندي آهي، ۽ مخصوص ڊيٽا جي مخزن ۾ موجود اثاثا. هي هڪ ميٽا ڊيٽا ڪيٽلاگ ٺاهي ٿو جيڪو سسٽم کي اجازت ڏئي ٿو موثر طريقي سان ڊيٽا کي ٻيهر حاصل ڪرڻ کان سواءِ ڪلائنٽ ۽ وسيلن کي اوور لوڊ ڪرڻ جي ٻين انجنيئرن پاران استعمال ٿيل.

هي ميٽا ڊيٽا ڪيٽلاگ سڀني اسڪين ٿيل اثاثن لاءِ هڪ مستند ذريعو مهيا ڪري ٿو ۽ توهان کي مختلف اثاثن جي صورتحال کي ٽريڪ ڪرڻ جي اجازت ڏئي ٿو. هن معلومات کي استعمال ڪندي، شيڊول جي ترجيح قائم ڪئي وئي آهي گڏ ڪيل ڊيٽا ۽ سسٽم مان اندروني معلومات جي بنياد تي، جهڙوڪ اثاثو آخري ڀيرو ڪاميابيء سان اسڪين ڪيو ويو ۽ اهو وقت ٺاهيو ويو، انهي سان گڏ ماضي جي يادگيري ۽ سي پي يو جي گهرج انهي اثاثن لاء جيڪڏهن ان کان اڳ اسڪين ڪيو ويو آهي. پوء، هر ڊيٽا وسيلن لاء (جيئن وسيلا دستياب ٿي ويندا آهن)، هڪ نوڪري سڏيو ويندو آهي اصل ۾ وسيلن کي اسڪين ڪرڻ لاء.

هر نوڪري هڪ مرتب ڪيل بائنري فائل آهي جيڪا هر اثاثن لاءِ موجود جديد ڊيٽا تي برنولي نموني انجام ڏئي ٿي. اثاثو انفرادي ڪالمن ۾ ورهايو ويو آهي، جتي هر ڪالمن جي درجه بندي جو نتيجو آزاديء سان عمل ڪيو ويندو آهي. اضافي طور تي، سسٽم ڪالمن اندر ڪنهن به سٿري ٿيل ڊيٽا لاء اسڪين ڪري ٿو. JSON، arrays، انڪوڊ ٿيل اڏاوتون، URLs، بنيادي 64 سيريل ٿيل ڊيٽا، ۽ وڌيڪ سڀ اسڪين ٿيل آھن. اهو خاص طور تي اسڪين جي عمل جي وقت کي وڌائي سگھي ٿو ڇاڪاڻ ته هڪ ٽيبل ۾ هزارين نيسٽ ٿيل ڪالمن شامل ٿي سگهن ٿا بلب ۾ json.

هر قطار لاءِ جيڪا ڊيٽا اثاثن ۾ منتخب ڪئي وئي آهي، درجه بندي سسٽم مواد مان فلوٽ ۽ ٽيڪسٽ شيون ڪڍي ٿو ۽ هر شئي کي واپس ڪالمن سان ڳنڍي ٿو جتان اهو ورتو ويو هو. خصوصيت ڪڍڻ واري قدم جو نتيجو ڊيٽا جي اثاثن ۾ مليل هر ڪالمن لاء سڀني خاصيتن جو نقشو آهي.

نشانيون ڇا لاء آهن؟

خاصيتن جو تصور اهم آهي. فلوٽ ۽ متن جي خاصيتن جي بدران، اسان خام اسٽرنگ نموني کي منتقل ڪري سگھون ٿا جيڪي سڌو سنئون ڊيٽا جي وسيلن مان ڪڍيا ويا آهن. اضافي طور تي، مشين سکيا جا ماڊل سڌو سنئون هر نموني تي تربيت ڪري سگھجن ٿيون، بجاءِ سوين خصوصيتن جي حسابن جي جيڪي صرف نموني کي لڳ ڀڳ ڪرڻ جي ڪوشش ڪن ٿا. هن جا ڪيترائي سبب آهن:

  1. رازداري پهريون: سڀ کان وڌيڪ اهم، خاصيتن جو تصور اسان کي صرف انهن نمونن کي ياد رکڻ جي اجازت ڏئي ٿو جيڪي اسان حاصل ڪريون ٿا. اهو يقيني بڻائي ٿو ته اسان هڪ واحد مقصد لاءِ نمونا ذخيرو ڪندا آهيون ۽ ڪڏهن به انهن کي پنهنجي ڪوششن ذريعي لاگ ان نه ڪندا آهيون. اهو خاص طور تي غير مستحڪم ڊيٽا لاءِ اهم آهي، ڇاڪاڻ ته خدمت کي اڳڪٿي ڪرڻ کان پهريان ڪجهه درجه بندي واري حالت کي برقرار رکڻ گهرجي.
  2. ياداشت: ڪجهه نمونا هزارين اکر ڊگھا ٿي سگهن ٿا. اهڙي ڊيٽا کي محفوظ ڪرڻ ۽ ان کي سسٽم جي حصن ڏانهن منتقل ڪرڻ غير ضروري طور تي ڪيترائي اضافي بائيٽ استعمال ڪري ٿو. ٻه عنصر وقت سان گڏ گڏ ڪري سگھن ٿا، ڏنو ويو آهي ته ڪيترن ئي ڊيٽا جا وسيلا آهن هزارين ڪالمن سان.
  3. خصوصيت جو مجموعو: خاصيتون واضح طور تي هر اسڪين جي نتيجن کي خاصيتن جي هڪ سيٽ ذريعي نمائندگي ڪن ٿيون، سسٽم کي اجازت ڏين ٿيون ته ساڳئي ڊيٽا وسيلن جي اڳوڻي اسڪين جي نتيجن کي گڏ ڪرڻ لاء آسان طريقي سان. اهو ڪارائتو ٿي سگهي ٿو اسڪين نتيجن کي گڏ ڪرڻ لاءِ هڪ واحد ڊيٽا وسيلن مان ڪيترن ئي رنن تي.

خاصيتون وري اڳڪٿي ڪرڻ واري سروس ڏانهن موڪليا ويندا آهن جتي اسان هر ڪالمن جي ڊيٽا ليبل جي اڳڪٿي ڪرڻ لاءِ اصول تي ٻڌل درجه بندي ۽ مشين لرننگ استعمال ڪندا آهيون. خدمت ٻنهي قاعدن جي درجيبندي ۽ مشين لرننگ تي ڀاڙي ٿي ۽ هر پيشنگوئي واري اعتراض مان ڏنل بهترين اڳڪٿي کي چونڊي ٿي.

ضابطي جي درجه بندي دستي هيرسٽڪس آهن، اهي 0 کان 100 جي حد تائين ڪنهن شئي کي عام ڪرڻ لاءِ حسابن ۽ ڪوئفينٽس استعمال ڪندا آهن. هڪ ڀيرو اهڙو شروعاتي سکور هر ڊيٽا جي قسم ۽ ان ڊيٽا سان لاڳاپيل ڪالمن جي نالي لاءِ پيدا ڪيو ويندو آهي، ان کي ڪنهن به "پابندي" ۾ شامل نه ڪيو ويندو آهي. فهرستون"، ضابطي جي درجه بندي سڀني ڊيٽا جي قسمن جي وچ ۾ سڀ کان وڌيڪ عام سکور چونڊيندو آهي.

درجي بندي جي پيچيدگي جي ڪري، صرف دستي هيرسٽڪس تي ڀروسو ڪرڻ جي نتيجي ۾ گهٽ درجه بندي جي درستگي، خاص طور تي غير منظم ٿيل ڊيٽا لاء. انهي سبب لاءِ، اسان هڪ مشين لرننگ سسٽم تيار ڪيو آهي ته جيئن غير ترتيب ڏنل ڊيٽا جي درجه بندي سان ڪم ڪجي جيئن صارف جو مواد ۽ پتو. مشين لرننگ ان کي ممڪن بڻائي ڇڏيو آهي ته مينوئل هيرسٽڪس کان پري وڃڻ شروع ڪيو وڃي ۽ اضافي ڊيٽا سگنل لاڳو ڪيو وڃي (مثال طور ڪالمن جا نالا، ڊيٽا جو ثبوت)، خاص طور تي پتو لڳائڻ جي درستگي کي بهتر بنائڻ. اسان بعد ۾ اسان جي مشين لرننگ آرڪيٽيڪچر ۾ گهيرو ڪنداسين.

اڳڪٿي واري خدمت هر ڪالمن لاءِ نتيجن کي گڏ ڪري ٿي ميٽاداٽا سان گڏ اسڪين جي وقت ۽ حالت جي حوالي سان. ڪو به صارف ۽ هيٺيون وهڪرو عمل جيڪي هن ڊيٽا تي ڀاڙين ٿا ان کي روزاني شايع ٿيل ڊيٽا سيٽ مان پڙهي سگهن ٿا. هي سيٽ انهن سڀني اسڪين نوڪرين جي نتيجن کي گڏ ڪري ٿو، يا حقيقي وقت ڊيٽا ڪيٽلاگ APIs. شايع ٿيل اڳڪٿيون رازداري ۽ سيڪيورٽي پاليسين جي خودڪار لاڳو ڪرڻ جو بنياد آهن.

آخرڪار، اڳڪٿي ڪرڻ واري خدمت کان پوءِ سڀ ڊيٽا لکي ٿو ۽ سڀ اڳڪٿيون محفوظ ڪيون ويون آهن، اسان جي ڊيٽا ڪيٽلاگ API اصل وقت ۾ وسيلن لاءِ سڀني ڊيٽا جي قسم جي اڳڪٿيون واپس ڪري سگهي ٿي. هر روز سسٽم هڪ ڊيٽا سيٽ شايع ڪري ٿو جنهن ۾ هر اثاثن جي سڀني تازي اڳڪٿيون شامل آهن.

غير مستحڪم ڊيٽا

جڏهن ته مٿين عمل کي مسلسل اثاثن لاء ٺهيل آهي، غير مسلسل ٽرئفڪ پڻ هڪ تنظيم جي ڊيٽا جو حصو سمجهيو ويندو آهي ۽ اهم ٿي سگهي ٿو. انهي سبب لاء، سسٽم ڪنهن به وقتي ٽرئفڪ لاء حقيقي وقت جي درجه بندي جي اڳڪٿيون پيدا ڪرڻ لاء هڪ آن لائن API مهيا ڪري ٿو. حقيقي وقت جي اڳڪٿي ڪرڻ وارو نظام وڏي پئماني تي استعمال ڪيو ويندو آهي درجي بندي ڪرڻ ۾ ٻاهرين ٽرئفڪ، ان بائونڊ ٽرئفڪ کي مشين لرننگ ماڊل ۾ ۽ اشتهار ڏيندڙ ڊيٽا.

ھتي API ٻن مکيه دليلن کي وٺي ٿو: گروپنگ ڪيچ ۽ خام ڊيٽا جيڪا اڳڪٿي ڪئي وڃي. خدمت انجام ڏئي ٿي ساڳئي اعتراض جي بحالي جيئن مٿي بيان ڪيو ويو آهي ۽ شيون گڏ ڪري ساڳي ڪنجي لاءِ. اهي خاصيتون ناڪامي جي بحالي لاء مسلسل ڪيش ۾ پڻ سپورٽ آهن. هر گروپنگ ڪيچ لاءِ، سروس يقيني بڻائي ٿي ته ان اڳڪٿي سروس کي سڏڻ کان اڳ ڪافي نمونا ڏٺا آهن، مٿي بيان ڪيل عمل جي پٺيان.

حاصل ڪرڻ

ڪجهه اسٽوريج کي اسڪين ڪرڻ لاءِ، اسان لائبريريون ۽ ٽيڪنڪ استعمال ڪندا آهيون گرم اسٽوريج مان پڙهڻ کي بهتر ڪرڻ لاءِ [2] ۽ انهي ڳالهه کي يقيني بڻائڻ لاءِ ته ساڳي اسٽوريج تائين رسائي حاصل ڪرڻ وارن ٻين صارفين کان ڪا به رڪاوٽ نه آهي.

تمام وڏين جدولن لاءِ (50+ petabytes)، سڀني اصلاحن ۽ ميموري ڪارڪردگيءَ جي باوجود، سسٽم ميموري ختم ٿيڻ کان اڳ سڀڪنھن شيءِ کي اسڪين ڪرڻ ۽ ڪمپيوٽنگ ڪرڻ لاءِ ڪم ڪري ٿو. آخرڪار، اسڪين مڪمل طور تي ميموري ۾ ٺهيل آهي ۽ اسڪين دوران محفوظ نه آهي. جيڪڏهن وڏي جدولن ۾ هزارين ڪالمن شامل آهن ڊيٽا جي غير منظم ڪلپس سان، نوڪري ناڪام ٿي سگهي ٿي ناڪامي ميموري وسيلن جي ڪري جڏهن پوري ٽيبل تي اڳڪٿيون ڪندي. ان جي نتيجي ۾ ڪوريج گھٽجي ويندي. هن کي منهن ڏيڻ لاءِ، اسان سسٽم کي بهتر ڪيو ته اسڪين اسپيڊ استعمال ڪرڻ لاءِ پراکسي جي طور تي ته سسٽم موجوده ڪم لوڊ کي ڪيئن سنڀالي. اسان ميموري جي مسئلن کي ڏسڻ ۽ خصوصيت جي نقشي جي اڳڪٿي ڪرڻ لاءِ اڳڪٿي ڪندڙ ميڪانيزم جي طور تي رفتار استعمال ڪندا آهيون. ساڳئي وقت، اسان معمول کان گهٽ ڊيٽا استعمال ڪندا آهيون.

ڊيٽا سگنل

درجه بندي سسٽم صرف ايترو سٺو آهي جيترو ڊيٽا مان سگنل. هتي اسان سڀني سگنلن تي نظر ڪنداسين جيڪي درجه بندي سسٽم پاران استعمال ڪيا ويا آهن.

  • مواد جي بنياد تي: يقينا، پهريون ۽ سڀ کان اهم سگنل مواد آهي. برنولي نموني هر ڊيٽا جي اثاثن تي ڪيو ويندو آهي جيڪو اسان ڊيٽا جي مواد جي بنياد تي اسڪين ۽ خاصيتون ڪڍيون ٿا. ڪيتريون ئي نشانيون مواد مان اچن ٿيون. سچل شين جو ڪو به تعداد ممڪن آهي، جيڪي هڪ خاص نموني جي قسم کي ڪيترا ڀيرا ڏٺو ويو آهي ان جي حساب سان نمائندگي ڪن ٿا. مثال طور، اسان وٽ شايد نشانيون هجن اي ميلن جي تعداد جو هڪ نمونو ۾ ڏٺو ويو آهي، يا نشانيون آهن ڪيترا ايمجسي نموني ۾ ڏٺا ويا آهن. انهن خاصيتن جي حسابن کي عام ڪري سگهجي ٿو ۽ مختلف اسڪينن ۾ مجموعي طور تي.
  • ڊيٽا ثابت ڪرڻ: هڪ اهم سگنل جيڪو مدد ڪري سگهي ٿو جڏهن مواد والدين ٽيبل تان تبديل ٿي چڪو آهي. ھڪڙو عام مثال آھي ڇڪيل ڊيٽا. جڏهن ٻار جي ٽيبل ۾ ڊيٽا کي هٽايو ويندو آهي، اهو اڪثر ڪري والدين جي ٽيبل مان ايندو آهي، جتي اهو واضح رهي ٿو. نسب جي ڊيٽا ڪجهه قسمن جي ڊيٽا کي درجه بندي ڪرڻ ۾ مدد ڪري ٿي جڏهن اهي واضح طور تي نه پڙهيا وڃن يا اپ اسٽريم ٽيبل تان تبديل ڪيا وڃن.
  • تشريحون: ٻيو اعليٰ معيار جو سگنل جيڪو اڻڄاتل ڊيٽا کي سڃاڻڻ ۾ مدد ڪري ٿو. حقيقت ۾، تشريحون ۽ ثابت ڪيل ڊيٽا گڏجي ڪم ڪري سگھن ٿيون خاصيتون پروپيگنڊا ڪرڻ لاءِ مختلف ڊيٽا اثاثن ۾. تشريحون اڻڄاتل ڊيٽا جي ماخذ کي سڃاڻڻ ۾ مدد ڪن ٿيون، جڏهن ته نسب واري ڊيٽا انهي ڊيٽا جي وهڪري کي ٽريڪ ڪرڻ ۾ مدد ڪري سگهي ٿي سڄي مخزن ۾.
  • ڊيٽا انجيڪشن هڪ ٽيڪنڪ آهي جتي خاص، اڻ پڙهيل ڪردارن کي ڄاڻي واڻي ڊيٽا جي قسمن جي ڄاڻايل ذريعن ۾ متعارف ڪرايو ويو آهي. پوءِ، جڏهن به اسان مواد کي ساڳي اڻ پڙهيل ڪردار جي ترتيب سان اسڪين ڪريون ٿا، اسان اهو اندازو لڳائي سگهون ٿا ته مواد ان ڄاڻايل ڊيٽا جي قسم مان اچي ٿو. هي هڪ ٻيو قابليت وارو ڊيٽا سگنل آهي جيڪو تشريح سان ملندڙ جلندڙ آهي. ان کان سواءِ مواد جي بنياد تي ڳولها داخل ٿيل ڊيٽا کي ڳولڻ ۾ مدد ڪري ٿي.

ماپنگ ميٽرڪ

ھڪڙو اھم حصو آھي ھڪڙو سخت طريقو آھي ميٽرڪ کي ماپڻ لاءِ. درجه بندي جي سڌاري لاءِ مکيه ميٽرڪس هر ليبل جي درستگي ۽ ياد ڪرڻ وارا آهن، جن ۾ F2 سکور سڀ کان اهم آهي.

انهن ماپن کي ڳڻڻ لاءِ، ڊيٽا جي اثاثن کي ليبل ڪرڻ لاءِ هڪ آزاد طريقو گهربل آهي جيڪو خود سسٽم کان آزاد آهي، پر ان سان سڌي مقابلي لاءِ استعمال ٿي سگهي ٿو. هيٺ اسين بيان ڪريون ٿا ته ڪيئن اسان Facebook مان زميني حقيقتون گڏ ڪريون ٿا ۽ ان کي استعمال ڪريون ٿا اسان جي درجي بندي واري نظام کي تربيت ڏيڻ لاءِ.

قابل اعتماد ڊيٽا گڏ ڪرڻ

اسان هيٺ ڏنل فهرستن مان هر هڪ قابل اعتماد ڊيٽا گڏ ڪريون ٿا ان جي پنهنجي جدول ۾. هر جدول ان خاص ذريعن مان تازو مشاهدو ڪيل قدرن کي گڏ ڪرڻ جو ذميوار آهي. هر ماخذ وٽ ڊيٽا جي معيار جي چڪاس آهي انهي کي يقيني بڻائڻ لاءِ ته هر ماخذ لاءِ مشاهدو ڪيل قدر اعليٰ معيار جا آهن ۽ جديد ڊيٽا جي قسم جا ليبل شامل آهن.

  • لاگنگ پليٽ فارم جي ٺاھ جوڙ: Hive جدولن ۾ ڪجھ فيلڊ ڊيٽا سان ڀريل آھن جيڪي ھڪڙي خاص قسم جي آھن. هن ڊيٽا جو استعمال ۽ ورهاڱي سچ جي قابل اعتماد ذريعو طور ڪم ڪري ٿو.
  • دستي ليبلنگ: ڊولپرز سسٽم کي برقرار رکڻ سان گڏوگڏ خارجي ليبلرز کي تربيت ڏني وئي آهي ڪالمن کي ليبل ڪرڻ لاء. اهو عام طور تي گودام ۾ ڊيٽا جي سڀني قسمن لاء سٺو ڪم ڪري ٿو، ۽ ڪجهه غير منظم ٿيل ڊيٽا، جهڙوڪ پيغام ڊيٽا يا صارف جي مواد لاء سچائي جو بنيادي ذريعو ٿي سگهي ٿو.
  • والدين جي جدولن مان ڪالمن کي نشان لڳل يا بيان ڪري سگھجي ٿو جيئن مخصوص ڊيٽا تي مشتمل هجي، ۽ اسان ان ڊيٽا کي ٻارن جي جدولن ۾ ٽريڪ ڪري سگهون ٿا.
  • پھانسي جا سلسلا آڻڻ: فيس بوڪ تي عملدرآمد جا ٿريڊ مخصوص قسم جي ڊيٽا کڻي ويندا آھن. اسان جي اسڪينر کي سروس آرڪيٽيڪچر جي طور تي استعمال ڪندي، اسان نمونن جو نمونو ڪري سگھون ٿا جيڪي ڄاڻايل ڊيٽا جا قسم آهن ۽ انهن کي سسٽم ذريعي موڪليندا آهن. سسٽم واعدو ڪري ٿو ته هن ڊيٽا کي ذخيرو نه ڪندو.
  • نموني جدول: وڏيون ڇت واريون ٽيبلون، جيڪي سڃاتل آهن جن ۾ پوري ڊيٽا ڪورپس شامل آهن، پڻ استعمال ڪري سگھجن ٿيون ٽريننگ ڊيٽا طور ۽ اسڪينر ذريعي هڪ خدمت جي طور تي. هي ڊيٽا جي قسمن جي مڪمل رينج سان جدولن لاءِ وڏو آهي، تنهن ڪري بي ترتيب تي هڪ ڪالمن جو نمونو ان ڊيٽا جي قسم جي پوري سيٽ کي نموني ڏيڻ جي برابر آهي.
  • مصنوعي ڊيٽا: اسان لائبريريون پڻ استعمال ڪري سگهون ٿا جيڪي پرواز تي ڊيٽا ٺاهي ٿي. اهو ڪم سادي، عوامي ڊيٽا جي قسمن جهڙوڪ پتو يا GPS لاءِ.
  • ڊيٽا اسٽريڊس: پرائيويسي پروگرام عام طور تي ڊيٽا اسٽريڊس کي استعمال ڪندا آهن دستي طور تي پاليسين کي ڊيٽا جي ٽڪرن تي تفويض ڪرڻ لاءِ. هي سچائي جو هڪ انتهائي صحيح ذريعو طور ڪم ڪري ٿو.

اسان سچ جي هر وڏي ذريعن کي گڏ ڪريون ٿا هڪ ڪورپس ۾ ان سموري ڊيٽا سان. صحيحيت سان سڀ کان وڏو چئلينج يقيني بڻائڻ آهي ته اهو ڊيٽا جي مخزن جو نمائندو آهي. ٻي صورت ۾، درجه بندي انجڻين کي ختم ڪري سگھي ٿو. هن کي منهن ڏيڻ لاءِ، مٿين سڀني ذريعن کي استعمال ڪيو ويندو آهي توازن کي يقيني بڻائڻ لاءِ جڏهن تربيتي ماڊل يا ميٽرڪ جي حساب سان. ان کان علاوه، انساني ليبلرز هڪجهڙائي سان مختلف ڪالمن کي مخزن ۾ نمونو ڏين ٿا ۽ ان مطابق ڊيٽا کي ليبل ڪن ٿا ته جيئن زميني سچائي جو مجموعو غيرجانبدار رهي.

مسلسل انضمام

تيز رفتار ۽ بهتري کي يقيني بڻائڻ لاء، اهو ضروري آهي ته هميشه حقيقي وقت ۾ سسٽم جي ڪارڪردگي کي ماپڻ لاء. اسان اڄ سسٽم جي خلاف هر درجه بندي جي بهتري کي ماپ ڪري سگهون ٿا، تنهنڪري اسان حڪمت عملي طور تي ڊيٽا جي بنياد تي مستقبل جي بهتري جي رهنمائي ڪري سگهون ٿا. هتي اسان ڏسون ٿا ته سسٽم موٽڻ واري لوپ کي ڪيئن مڪمل ڪري ٿو جيڪو صحيح ڊيٽا طرفان مهيا ڪيل آهي.

جڏهن شيڊيولنگ ​​سسٽم هڪ اثاثو سان ملندو آهي جنهن ۾ هڪ قابل اعتماد ذريعن کان هڪ ليبل آهي، اسان ٻه ڪم شيڊول ڪندا آهيون. پهريون استعمال ڪري ٿو اسان جي پيداوار اسڪينر ۽ اهڙيء طرح اسان جي پيداوار صلاحيتون. ٻيو ڪم جديد بلڊ اسڪينر استعمال ڪري ٿو جديد خصوصيتن سان. هر ڪم ان جي پيداوار کي پنهنجي ٽيبل تي لکي ٿو، ورجن کي ٽيگ ڪرڻ سان گڏ درجه بندي جا نتيجا.

اهو ڪيئن آهي اسان مقابلي ڪريون ٿا درجه بندي جي نتيجن جي رليز اميدوار ۽ پيداوار ماڊل حقيقي وقت ۾.

جڏهن ته ڊيٽا سيٽس RC ۽ PROD خاصيتن جو مقابلو ڪن ٿا، پيش گوئي جي خدمت جي ايم ايل درجه بندي انجڻ جا ڪيترائي مختلف قسم لاگ ان ٿيل آهن. سڀ کان تازو ٺهيل مشين لرننگ ماڊل، پيداوار ۾ موجوده ماڊل، ۽ ڪي تجرباتي ماڊل. ساڳيو طريقو اسان کي ماڊل جي مختلف نسخن کي ”سلائس“ ڪرڻ جي اجازت ڏئي ٿو (اسان جي قاعدن جي درجه بندي کي اجناسٽڪ) ۽ حقيقي وقت ۾ ميٽرڪ جو موازنہ ڪريو. اهو اهو طئي ڪرڻ آسان بڻائي ٿو جڏهن هڪ ايم ايل تجربو پيداوار ۾ وڃڻ لاءِ تيار آهي.

هر رات، ان ڏينهن لاءِ حساب ڪيل RC فيچرز ML ٽريننگ پائيپ لائين ڏانهن موڪليا ويندا آهن، جتي ماڊل کي جديد RC فيچرز تي تربيت ڏني ويندي آهي ۽ زميني سچائي ڊيٽا سيٽ جي خلاف ان جي ڪارڪردگي جو جائزو وٺندو آهي.

هر صبح، ماڊل ٽريننگ مڪمل ڪري ٿو ۽ خودڪار طور تي هڪ تجرباتي نموني طور شايع ٿيل آهي. اهو خودڪار طور تي تجرباتي لسٽ ۾ شامل ڪيو ويو آهي.

ڪجھ نتيجا

100 کان وڌيڪ مختلف قسمن جي ڊيٽا کي اعلي درستگي سان ليبل ڪيو ويو آهي. چڱي طرح ٺهيل قسمون جهڙوڪ اي ميلون ۽ فون نمبر 2 کان وڌيڪ f0,95 سکور سان درجه بندي ڪيا ويا آهن. مفت ڊيٽا جا قسم جيئن ته صارف جي ٺاهيل مواد ۽ نالو پڻ تمام سٺو ڪم ڪن ٿا، F2 اسڪور 0,85 کان وڌيڪ.

مستقل ۽ غير مستحڪم ڊيٽا جي انفرادي ڪالمن جو وڏو تعداد روزانو سڀني ذخيرن ۾ درجه بندي ڪيو ويندو آهي. 500 کان وڌيڪ ٽيرا بائيٽ روزانو 10 کان وڌيڪ ڊيٽا گودامن ۾ اسڪين ڪيا ويندا آهن. انهن ذخيرن مان اڪثر 98 سيڪڙو کان وڌيڪ ڪوريج آهن.

وقت سان گڏ، درجه بندي تمام ڪارائتو ٿي چڪي آهي، هڪ مسلسل آف لائن اسٽريم ۾ درجه بندي جون نوڪريون هڪ اثاثو اسڪين ڪرڻ کان وٺي هر ڪالمن لاءِ اڳڪٿيون ڳڻڻ لاءِ سراسري طور 35 سيڪنڊن جو وقت وٺندو آهي.

سيڪيورٽي ۽ رازداري لاء اسڪيلبل ڊيٽا جي درجه بندي
چانور. 2. ڊاگرام مسلسل انضمام جي وهڪري کي بيان ڪري ٿو سمجھڻ لاء ته ڪيئن RC شيون ٺاهيا ويا ۽ ماڊل ڏانھن موڪليا ويا.

سيڪيورٽي ۽ رازداري لاء اسڪيلبل ڊيٽا جي درجه بندي
شڪل 3. مشين لرننگ جزو جو اعليٰ سطحي خاڪو.

مشين لرننگ سسٽم جو حصو

پوئين حصي ۾، اسان مجموعي نظام جي فن تعمير، نمايان ڪرڻ واري پيماني، اصلاح، ۽ آف لائن ۽ آن لائن ڊيٽا جي وهڪري ۾ هڪ گہرے غوطه ورتو. هن حصي ۾، اسان اڳڪٿي ڪرڻ واري خدمت کي ڏسنداسين ۽ مشين لرننگ سسٽم جو بيان ڪنداسين جيڪو اڳڪٿي ڪرڻ واري خدمت کي طاقت ڏئي ٿو.

100 کان وڌيڪ ڊيٽا جي قسمن ۽ ڪجهه غير ترتيب ڏنل مواد جهڙوڪ پيغام جي ڊيٽا ۽ صارف جي مواد سان، خالص دستي هيرسٽڪس استعمال ڪندي ذيلي پيراميٽرڪ درجه بندي جي درستگي ۾، خاص طور تي غير منظم ٿيل ڊيٽا لاء. انهي سبب لاء، اسان هڪ مشين لرننگ سسٽم پڻ ٺاهيا آهن غير منظم ٿيل ڊيٽا جي پيچيدگين کي منهن ڏيڻ لاء. مشين لرننگ استعمال ڪرڻ توهان کي اجازت ڏئي ٿي دستي هيرسٽڪس کان پري وڃڻ شروع ڪريو ۽ خاصيتن ۽ اضافي ڊيٽا سگنلن سان ڪم ڪريو (مثال طور، ڪالمن جا نالا، ڊيٽا جي اصليت) جي درستگي کي بهتر ڪرڻ لاءِ.

لاڳو ٿيل ماڊل ویکٹر جي نمائندگي جو مطالعو ڪري ٿو [3] ٿلهي ۽ ويران شين تي الڳ الڳ. انهن کي پوءِ گڏ ڪري هڪ ویکٹر ٺاهيو وڃي ٿو، جيڪو آخري نتيجو پيدا ڪرڻ لاءِ بيچ نارملائيزيشن [4] ۽ غير لڪيريت جي مرحلن مان گذري ٿو. آخري نتيجو هر ليبل لاءِ [0-1] جي وچ ۾ سچل پوائنٽ نمبر آهي، اهو امڪان ظاهر ڪري ٿو ته مثال ان حساسيت جي قسم سان تعلق رکي ٿو. ماڊل لاءِ PyTorch استعمال ڪرڻ اسان کي تيزيءَ سان هلڻ جي اجازت ڏني، ٽيم کان ٻاهر ڊولپرز کي جلدي تبديليون ڪرڻ ۽ جانچڻ جي اجازت ڏني.

آرڪيٽيڪچر کي ڊزائين ڪرڻ وقت، ضروري هو ته اسپارس (مثال طور ٽيڪسٽ) ۽ گھڻا (مثال طور عددي) شين کي الڳ الڳ نمونو بڻايو وڃي، ڇاڪاڻ ته انهن جي موروثي فرقن جي ڪري. فائنل فن تعمير لاء، اهو پڻ ضروري هو ته هڪ پيراميٽر سوپ انجام ڏيڻ لاء سکيا جي شرح، بيچ جي سائيز، ۽ ٻين هائپرپراميٽرز لاء بهترين قيمت ڳولڻ لاء. اصلاح ڪندڙ جو انتخاب پڻ هڪ اهم هائپرپراميٽر هو. اسان کي مليو آهي ته هڪ مشهور اصلاحي آدماڪثر ڪري overfitting جي ڪري ٿي، جڏهن ته هڪ ماڊل سان SGD وڌيڪ مستحڪم. اتي اضافي nuances هئا ته اسان کي سڌو سنئون ماڊل ۾ شامل ڪرڻو پوندو. مثال طور، جامد ضابطا جيڪي يقيني بڻائين ٿا ته ماڊل هڪ مقرراتي اڳڪٿي ڪري ٿو جڏهن هڪ خاصيت کي هڪ خاص قدر آهي. اهي جامد ضابطا اسان جي گراهڪن طرفان بيان ڪيا ويا آهن. اسان اهو محسوس ڪيو ته انهن کي سڌو سنئون ماڊل ۾ شامل ڪرڻ جي نتيجي ۾ هڪ وڌيڪ خودمختاري ۽ مضبوط فن تعمير جي نتيجي ۾، انهن خاص ايج ڪيسن کي سنڀالڻ لاء پوسٽ پروسيسنگ قدم لاڳو ڪرڻ جي مخالفت ڪئي وئي. اهو پڻ نوٽ ڪريو ته اهي ضابطا تربيت دوران بند ڪيا ويا آهن ته جيئن تدريسي نزول ٽريننگ جي عمل ۾ مداخلت نه ٿئي.

پريشاني

انهن چيلنجن مان هڪ اعليٰ معيار، قابل اعتماد ڊيٽا گڏ ڪرڻ هو. ماڊل کي هر طبقي لاءِ اعتماد جي ضرورت آهي ته جيئن اهو شيون ۽ ليبلز جي وچ ۾ اتحاد سکي سگهي. پوئين حصي ۾، اسان ٻنهي سسٽم جي ماپ ۽ ماڊل ٽريننگ لاء ڊيٽا گڏ ڪرڻ جي طريقن تي بحث ڪيو. تجزيو ظاهر ڪيو ته ڊيٽا ڪلاس جهڙوڪ ڪريڊٽ ڪارڊ ۽ بئنڪ اڪائونٽ نمبر اسان جي گودام ۾ تمام عام نه آهن. اهو ان کي مشڪل بڻائي ٿو وڏي مقدار ۾ قابل اعتماد ڊيٽا گڏ ڪرڻ لاءِ ماڊل ٽريننگ ڪرڻ لاءِ. ھن مسئلي کي حل ڪرڻ لاءِ، اسان انھن طبقن لاءِ مصنوعي زميني سچائي ڊيٽا حاصل ڪرڻ لاءِ طريقا ٺاھيا آھن. اسان حساس قسمن سميت اهڙي ڊيٽا ٺاهيندا آهيون SSN, ڪريڊٽ ڪارڊ نمبر и IBAN-نمبر جن لاءِ ماڊل اڳيئي اڳڪٿي نه ڪري سگهيو. اهو طريقو حساس ڊيٽا جي قسمن کي پروسيس ڪرڻ جي اجازت ڏئي ٿو پرائيويسي خطرن جي بغير حقيقي حساس ڊيٽا کي لڪائڻ سان.

زميني حقيقتن جي مسئلن کان علاوه، اتي کليل تعميراتي مسئلا آهن جن تي اسان ڪم ڪري رهيا آهيون، جهڙوڪ اڪيلائي کي تبديل ڪرڻ и شروعاتي اسٽاپ. اڪيلائي کي تبديل ڪرڻ ضروري آهي انهي ڳالهه کي يقيني بڻائڻ لاءِ ته جڏهن نيٽ ورڪ جي مختلف حصن ۾ مختلف تبديليون ڪيون وينديون آهن، ته اثر مخصوص طبقن تي الڳ ٿي ويندو آهي ۽ مجموعي پيشنگوئي جي ڪارڪردگي تي وسيع اثر نه پوندو آهي. شروعاتي اسٽاپ جي معيار کي بهتر ڪرڻ پڻ نازڪ آهي ته جيئن اسان تربيتي عمل کي سڀني طبقن لاءِ هڪ مستحڪم نقطي تي روڪي سگهون، بجاءِ ان نقطي تي جتي ڪجهه طبقا اوور ٽرين ڪن ۽ ٻيا نه.

خاصيت جي اهميت

جڏهن هڪ نئين خصوصيت هڪ ماڊل ۾ متعارف ڪرايو ويو آهي، اسان ڄاڻڻ چاهيون ٿا ته ان جي مجموعي اثر ماڊل تي. اسان اهو پڻ پڪ ڪرڻ چاهيون ٿا ته اڳڪٿيون انساني تشريح لائق آهن ته جيئن اسان سمجهي سگهون ته هر قسم جي ڊيٽا لاءِ ڪهڙيون خاصيتون استعمال ڪيون پيون وڃن. هن مقصد لاء اسان ترقي ڪئي ۽ متعارف ڪرايو ڪلاس طرفان PyTorch ماڊل لاء خاصيتن جي اهميت. نوٽ ڪريو ته ھي مجموعي خصوصيت جي اھميت کان مختلف آھي، جنھن کي عام طور تي سپورٽ ڪيو ويندو آھي، ڇاڪاڻ⁠تہ اھو اسان کي نٿو ٻڌائي تہ ڪھڙا خاصيتون ڪنھن خاص طبقي لاءِ اھم آھن. اسان اعتراض جي اهميت کي ماپ ڪريون ٿا اڳڪٿي جي غلطي ۾ واڌ جي حساب سان اعتراض کي ترتيب ڏيڻ کان پوء. هڪ خصوصيت ”اهم“ هوندي آهي جڏهن قدرن کي مٽائڻ سان ماڊل جي غلطي وڌي ٿي ڇاڪاڻ ته ان صورت ۾ ماڊل پنهنجي پيشنگوئي ڪرڻ لاءِ خصوصيت تي ڀروسو ڪري رهيو هو. هڪ خصوصيت "غير ضروري" آهي جڏهن ان جي قيمتن کي ڦيرائڻ سان ماڊل جي غلطي کي تبديل نه ٿيندي آهي، ڇاڪاڻ ته هن صورت ۾ ماڊل ان کي نظر انداز ڪيو [5].

هر ڪلاس لاءِ خصوصيت جي اهميت اسان کي اجازت ڏئي ٿي ته ماڊل کي تشريح لائق بڻائي سگهون ته جيئن اسان اهو ڏسي سگهون ته ماڊل ڇا ڏسي رهيو آهي جڏهن ڪنهن ليبل جي اڳڪٿي ڪندي. مثال طور، جڏهن اسان تجزيو ڪيو اي ڊي آر، پوءِ اسان ضمانت ڏيون ٿا ته پتي سان لاڳاپيل نشاني، جهڙوڪ ايڊريس لائنس شمار، هر طبقي لاءِ خصوصيت جي اهميت واري جدول ۾ اعليٰ مقام رکي ٿو ته جيئن اسان جي انساني وجدان ان نموني سان چڱيءَ طرح ملن جيڪا ماڊل سکي آهي.

اوسر

اهو ضروري آهي ته ڪاميابي لاء هڪ واحد ميٽرڪ جي وضاحت ڪرڻ. اسان چونڊيو F2 - ياداشت ۽ درستگي جي وچ ۾ توازن (ياد ڪرڻ جو تعصب ٿورو وڏو آهي). پرائيويسي استعمال جي ڪيس لاءِ ياد ڪرڻ وڌيڪ اهم آهي درستگي کان ڇو ته ٽيم لاءِ اهم آهي ته ڪنهن به حساس ڊيٽا کي نه وڃايو (جڏهن ته مناسب درستگي کي يقيني بڻايو وڃي). اسان جي ماڊل جي حقيقي F2 ڪارڪردگي جي تشخيص هن ​​ڪاغذ جي دائري کان ٻاهر آهي. بهرحال، محتاط ٽيوننگ سان اسان تمام اهم حساس طبقن لاءِ اعليٰ (0,9+) F2 اسڪور حاصل ڪري سگھون ٿا.

لاڳاپيل ڪم

غير ترتيب ڏنل دستاويزن جي خودڪار درجه بندي لاءِ ڪيترائي الگورتھم آھن مختلف طريقا استعمال ڪندي جھڙوڪ نمونن جي ميلاپ، دستاويزن جي مماثلت جي ڳولا ۽ مختلف مشين سکيا جا طريقا (Bayesian، فيصلي جا وڻ، k- ويجھا پاڙيسري ۽ ٻيا ڪيترائي) [6]. انهن مان ڪو به استعمال ڪري سگهجي ٿو درجه بندي جي حصي طور. تنهن هوندي به، مسئلو scalability آهي. هن آرٽيڪل ۾ درجه بندي جو طريقو لچڪ ۽ ڪارڪردگي جي طرف متعصب آهي. هي اسان کي اجازت ڏئي ٿو ته مستقبل ۾ نون طبقن جي حمايت ڪريون ۽ ويڪرائي گهٽ رکو.

ڊيٽا فنگر پرنٽنگ تي پڻ تمام گهڻو ڪم آهي. مثال طور، ليکڪن [7] ۾ هڪ حل بيان ڪيو آهي جيڪو حساس ڊيٽا ليڪ کي پڪڙڻ جي مسئلي تي ڌيان ڏئي ٿو. بنيادي مفروضو اهو آهي ته ڊيٽا کي فنگر پرنٽنگ ٿي سگهي ٿو ان کي ڄاڻايل حساس ڊيٽا جي سيٽ سان ملائڻ لاءِ. ليکڪ [8] ۾ رازداري جي لڪيج جي هڪ جهڙي مسئلي کي بيان ڪن ٿا، پر انهن جو حل هڪ مخصوص Android آرڪيٽيڪچر تي ٻڌل آهي ۽ صرف ان صورت ۾ درجه بندي ڪئي وئي آهي جڏهن صارف جي عملن جي نتيجي ۾ ذاتي معلومات جي حصيداري جي نتيجي ۾ يا بنيادي ايپليڪيشن صارف جي ڊيٽا کي ليڪ ڪري ٿي. هتي صورتحال ڪجهه مختلف آهي ڇو ته صارف ڊيٽا پڻ انتهائي غير منظم ٿي سگهي ٿو. تنهن ڪري، اسان کي فنگر پرنٽنگ کان وڌيڪ پيچيده ٽيڪنڪ جي ضرورت آهي.

آخرڪار، ڪجهه قسمن جي حساس ڊيٽا لاء ڊيٽا جي گھٽتائي کي منهن ڏيڻ لاء، اسان مصنوعي ڊيٽا متعارف ڪرايو. ڊيٽا جي واڌاري تي ادب جو هڪ وڏو ادارو آهي، مثال طور، ليکڪن [9] ۾ تربيت دوران شور انجڻ جي ڪردار کي دريافت ڪيو ۽ نگراني ڪيل سکيا ۾ مثبت نتيجا ڏٺا. رازداري لاءِ اسان جو رويو مختلف آهي ڇو ته شور واري ڊيٽا متعارف ڪرائڻ نقصانڪار ٿي سگهي ٿو، ۽ اسان بجاءِ اعليٰ معيار جي مصنوعي ڊيٽا تي ڌيان ڏيون ٿا.

ٿڪل

هن مقالي ۾، اسان هڪ سسٽم پيش ڪيو جيڪو ڊيٽا جي هڪ ٽڪرا کي درجه بندي ڪري سگهي ٿو. اهو اسان کي رازداري ۽ سيڪيورٽي پاليسين کي لاڳو ڪرڻ لاء سسٽم ٺاهڻ جي اجازت ڏئي ٿو. اسان ڏيکاريو آهي ته اسپيبلبل انفراسٽرڪچر، مسلسل انضمام، مشين جي سکيا ۽ اعلي معيار جي ڊيٽا جي ضمانت اسان جي ڪيترن ئي رازداري جي شروعاتن جي ڪاميابي ۾ اهم ڪردار ادا ڪن ٿا.

مستقبل جي ڪم لاء ڪيترائي هدايتون آهن. ھن ۾ شامل ٿي سگھي ٿو غير منصفانه ڊيٽا (فائلن) لاءِ مدد مهيا ڪرڻ، نه رڳو ڊيٽا جي قسم جي درجه بندي ڪرڻ پر حساسيت جي سطح، ۽ صحيح مصنوعي مثالن کي پيدا ڪندي تربيت دوران خود نگراني ٿيل سکيا استعمال ڪرڻ. جيڪو، موڙ ۾، ماڊل کي تمام وڏي رقم جي نقصان کي گهٽائڻ ۾ مدد ڏيندو. مستقبل جو ڪم تحقيق جي ڪم جي فلو تي پڻ ڌيان ڏئي سگهي ٿو، جتي اسان ڳولڻ کان ٻاهر وڃون ٿا ۽ مختلف رازداري جي خلاف ورزي جي بنيادي سببن جو تجزيو مهيا ڪندا آهيون. اهو ڪيسن ۾ مدد ڪندو جيئن حساسيت جو تجزيو (يعني ته ڇا ڊيٽا جي قسم جي رازداري حساسيت اعلي آهي (مثال طور يوزر IP) يا گهٽ (مثال طور Facebook اندروني IP)).

جيون

  1. دائود بن ڊيوڊ، تامر ڊومني، ۽ ابيگيل ترم. انٽرپرائز ڊيٽا جي درجه بندي سيمينٽڪ ويب ٽيڪنالاجيون استعمال ڪندي. پيٽر F.Ï پيٽيل-شنيڊر، يو پان، پاسڪل هٽلر، پيٽر ميڪا، لي ژانگ، جيف زي پين، ايان هوروڪس، ۽ برٽ گليم، ايڊيٽرن ۾، سيمينٽڪ ويب - ISWC 2010، صفحا 66-81، برلن، هائيڊلبرگ، 2010. اسپرنگر برلن هائيڊلبرگ.
  2. سبرامنين مرليڌر، وائيٽ لوئڊ، سبياساچي راءِ، ڪوري هيل، ارنسٽ لن، ويون ليو، ستادرو پان، شيوا شنڪر، وشوناٿ سيوا ڪمار، لنپينگ تانگ، ۽ سنجيو ڪمار. f4: Facebook جو گرم BLOB اسٽوريج سسٽم. ۾ 11 هين يو ايس اينڪس سمپوزيم آن آپريٽنگ سسٽم ڊيزائن ۽ انپليمينٽيشن (OSDI 14)، صفحا 383–398، بروم فيلڊ، CO، آڪٽوبر 2014. USENIX ايسوسيئيشن.
  3. ٽامس ميڪولوف، ايليا سوٽسڪيور، ڪائي چن، گريگ ايس ڪورراڊو، ۽ جيف ڊين. لفظن ۽ جملن جي ورهايل نمائندگي ۽ انهن جي جوڙجڪ. C. J. C. Burges، L. Bottou، M. Welling، Z. Gharamani ۽ K. Q. Weinberger، ايڊيٽرن ۾، نيورل انفارميشن پروسيسنگ سسٽم ۾ واڌارو 26صفحا 3111-3119. Curran Associates Inc.، 2013.
  4. سرجي آئيوف ۽ ڪرسچن سيزگيدي. بيچ نارملائيزيشن: گہرے نيٽ ورڪ ٽريننگ کي تيز ڪرڻ اندروني ڪووريٽ شفٽ کي گهٽائڻ سان. فرانسس بيچ ۽ ڊيوڊ بلي ۾، ايڊيٽرن، مشين لرننگ تي 32 هين بين الاقوامي ڪانفرنس جي ڪارروائي، جلد 37 جو مشين لرننگ ريسرچ جو عمل, صفحا 448–456, Lille, France, 07-09 جولاءِ 2015. PMLR.
  5. ليو بريمن. بي ترتيب ٻيلن. مچ. سکيو.، 45(1):5–32، آڪٽوبر 2001.
  6. تَرَ نُو ڦُو. ڊيٽا مائننگ ۾ درجه بندي ٽيڪنالاجي جو سروي.
  7. ايڪس شو، ڊي ياو، ۽ اي برٽينو. رازداري-حساس ڊيٽا جي نمائش جو پتو لڳائڻ. IEEE ٽرانزيڪشن تي معلومات فارنڪس ۽ سيڪيورٽي, 10(5):1092–1103, 2015.
  8. زيمن يانگ، من يانگ، يوان ژانگ، گوفي گو، پينگ ننگ، ۽ زياوانگ وانگ. اپائنٽنٽ: Android ۾ حساس ڊيٽا ٽرانسميشن جو تجزيو ڪرڻ رازداري لڪيج جي ڳولا لاءِ. صفحا 1043–1054، 11 2013.
  9. Qizhe Xie، Zihang Dai، Eduard H. Hovy، Minh-Thang Luong، ۽ Quoc V. Le. غير نگراني ٿيل ڊيٽا واڌارو.

سيڪيورٽي ۽ رازداري لاء اسڪيلبل ڊيٽا جي درجه بندي
SkillFactory آن لائن ڪورسز وٺڻ سان مهارتن ۽ تنخواه جي لحاظ کان شروع کان يا ليول اپ کان گهربل پيشو ڪيئن حاصل ڪجي بابت تفصيل معلوم ڪريو:

وڌيڪ ڪورس

جو ذريعو: www.habr.com

تبصرو شامل ڪريو