د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي

د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي

د منځپانګې پر بنسټ د معلوماتو طبقه بندي یوه پرانیستې ستونزه ده. دودیز ډیټا له لاسه ورکولو مخنیوي (DLP) سیسټمونه دا ستونزه د اړوندو معلوماتو د ګوتو په نښه کولو او د ګوتو د نښه کولو پای ټکي څارلو سره حل کوي. په فېسبوک کې د ډیټا سرچینو لوی شمیر په دوامداره توګه بدلولو ته په پام سره ، دا طریقه نه یوازې د توزیع وړ نه ده ، بلکه د دې معلومولو لپاره هم غیر مؤثره ده چې ډیټا چیرې اوسیږي. دا مقاله د پای څخه تر پای پورې سیسټم باندې تمرکز کوي چې په فیسبوک کې حساس سیمانټیک ډولونه په پیمانه کشف کړي او په اتوماتيک ډول د ډیټا ذخیره کولو او لاسرسي کنټرول پلي کړي.

دلته تشریح شوی طریقه زموږ د پای څخه تر پای پورې د محرمیت سیسټم دی چې د ډیټا سیګنالونو، ماشین زده کړې، او د ګوتو د چاپ کولو دودیز تخنیکونو په شاملولو سره دا ستونزه حل کوي ترڅو په فیسبوک کې ټول معلومات نقشه او طبقه بندي کړي. تشریح شوی سیسټم د تولید چاپیریال کې پرمخ وړل کیږي، د مختلف محرمیت ټولګیو کې د 2+ اوسط F0,9 نمرې ترلاسه کوي پداسې حال کې چې په لسګونو ذخیره کولو کې د ډیټا سرچینو لوی مقدار پروسس کوي. د ماشین زده کړې پراساس د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي کولو په اړه د فیسبوک د ArXiv کاغذ ژباړه معرفي کول.

پېژندنه

نن ورځ، سازمانونه په مختلفو بڼو او ځایونو کې لوی مقدار ډاټا راټولوي او ذخیره کوي [1]، بیا ډاټا په ډیری ځایونو کې مصرف کیږي، ځینې وختونه کاپي شوي یا څو ځله زیرمه شوي، په پایله کې ارزښتناکه او حساس سوداګریز معلومات د ډیری شرکتونو ډیټاونو کې ویشل کیږي. پلورنځي کله چې یو سازمان اړتیا وي چې ځینې قانوني یا تنظیمي اړتیاوې پوره کړي، لکه په مدني اجرااتو کې د مقرراتو سره موافقت، دا اړینه ده چې د اړین معلوماتو موقعیت په اړه معلومات راټول کړي. کله چې د محرمیت مقررات وايي چې یو سازمان باید ټول ټولنیز امنیت شمیرې (SSNs) ماسک کړي کله چې د غیر مجاز ادارو سره شخصي معلومات شریکوي ، طبیعي لومړی ګام د سازمان ډیټا پلورنځیو کې د ټولو SSNs لټون کول دي. په داسې شرایطو کې، د معلوماتو طبقه بندي ډیره مهمه ده [1]. د ډلبندۍ سیسټم به سازمانونو ته اجازه ورکړي چې په اتوماتيک ډول د محرمیت او امنیت پالیسۍ پلي کړي، لکه د لاسرسي کنټرول پالیسۍ فعالول، د معلوماتو ساتل. فیسبوک یو سیسټم معرفي کوي چې موږ په فیسبوک کې جوړ کړی چې د حساس سیمانټیک ډیټا ډولونو موندلو لپاره ډیری ډیټا سیګنالونه، د توزیع وړ سیسټم جوړښت، او ماشین زده کړه کاروي.

د ډیټا کشف او طبقه بندي د ډیټا موندلو او لیبل کولو پروسه ده ترڅو اړونده معلومات د اړتیا په وخت کې په چټکه او مؤثره توګه ترلاسه شي. اوسنۍ پروسه په طبیعت کې نه بلکه لارښود ده او د اړوندو قوانینو یا مقرراتو معاینه کوي، دا معلومه کوي چې کوم ډول معلومات باید حساس وګڼل شي او د حساسیت مختلف کچې څه دي، او بیا د هغې مطابق ټولګیو او طبقه بندي پالیسۍ جوړول [1]. د معلوماتو له لاسه ورکولو مخنیوی (DLP) بیا ډاټا د ګوتو نښه کوي او د ګوتو نښې ترلاسه کولو لپاره د لاندې جریان پای ټکي څاري. کله چې د پیټابایټ ډیټا سره د شتمنۍ - درانه ګودام سره معامله کوئ ، دا طریقه په ساده ډول اندازه نه کوي.

زموږ هدف دا دی چې د ډیټا طبقه بندي سیسټم رامینځته کړو چې د ډیټا ډول یا ب formatه کې کوم اضافي محدودیت پرته د قوي او لیږدونکي کارونکي ډیټا دواړه اندازه کړي. دا یو زړور هدف دی، او په طبیعي توګه دا د ننګونو سره راځي. د ورکړل شوي ډیټا ریکارډ ممکن په زرګونو حروف اوږد وي.

د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي
شکل 1. آنلاین او آفلاین وړاندوینې جریان لري

له همدې امله، موږ باید دا په اغیزمنه توګه د ځانګړتیاوو د عام سیټ په کارولو سره استازیتوب وکړو چې وروسته یوځای کیدی شي او په اسانۍ سره شاوخوا حرکت وکړي. دا ځانګړتیاوې باید نه یوازې دقیق طبقه بندي چمتو کړي، بلکه په راتلونکي کې د نوي ډیټا ډولونو په اسانۍ سره اضافه کولو او موندلو لپاره انعطاف او توسعیت هم چمتو کوي. دوهم، تاسو اړتیا لرئ د لوی آفلاین میزونو سره معامله وکړئ. دوامداره معلومات په میزونو کې زیرمه کیدی شي چې ډیری پیټابایټ اندازه لري. دا ممکن د سست سکین سرعت پایله ولري. دریم، موږ باید د بې ثباته معلوماتو په اړه د SLA سخت درجه بندي تعقیب کړو. دا سیسټم دې ته اړوي چې خورا اغیزمن، چټک او دقیق وي. په نهایت کې ، موږ باید د بې ثباته ډیټا لپاره د ټیټ ځنډ ډیټا طبقه بندي چمتو کړو ترڅو د ریښتیني وخت درجه بندي ترسره کړي او همدارنګه د انټرنیټ کارولو قضیو لپاره.

دا مقاله تشریح کوي چې موږ څنګه د پورته ننګونو سره معامله وکړه او د ګړندي او د توزیع وړ طبقه بندي سیسټم وړاندې کوي چې د ټولو ډولونو ، فارمیټونو او سرچینو ډیټا عناصر د ځانګړتیاو د عام سیټ پراساس طبقه بندي کوي. موږ د سیسټم جوړښت پراخ کړ او د ماشین زده کړې دودیز ماډل مو جوړ کړ ترڅو ژر تر ژره آفلاین او آنلاین ډاټا طبقه بندي کړي. دا مقاله په لاندې ډول تنظیم شوې: 2 برخه د سیسټم عمومي ډیزاین وړاندې کوي. دریمه برخه د ماشین زده کړې سیسټم برخې په اړه بحث کوي. 3 او 4 برخه اړونده کار روښانه کوي او د کار راتلونکي لارښوونې په ګوته کوي.

معمارۍ

د دوامداره او فیسبوک پیمانه آنلاین ډیټا ننګونو سره د مقابلې لپاره ، د ډلبندۍ سیسټم دوه جلا جریانونه لري چې موږ به یې په تفصیل سره بحث وکړو.

دوامداره ډاټا

په پیل کې، سیسټم باید د فیسبوک د ډیرو معلوماتو شتمنیو په اړه زده کړي. د هر ذخیره کولو لپاره، ځینې لومړني معلومات راټول شوي، لکه د ډیټا مرکز چې دا ډاټا لري، سیسټم چې دا ډاټا لري، او هغه شتمنۍ چې د ځانګړو معلوماتو ذخیره کې موقعیت لري. دا د میټاډاټا کتلاګ رامینځته کوي چې سیسټم ته اجازه ورکوي چې د نورو انجینرانو لخوا کارول شوي پیرودونکي او سرچینې له ډیر بار کولو پرته په مؤثره توګه ډاټا بیرته ترلاسه کړي.

دا د میټاډاټا کتلاګ د ټولو سکین شوي شتمنیو لپاره مستند سرچینه چمتو کوي او تاسو ته اجازه درکوي د مختلف شتمنیو حالت تعقیب کړئ. د دې معلوماتو په کارولو سره ، د مهالویش لومړیتوب د سیسټم څخه راټول شوي ډیټا او داخلي معلوماتو پراساس رامینځته کیږي ، لکه هغه وخت چې شتمنۍ وروستی ځل په بریالیتوب سره سکین شوې او هغه وخت چې رامینځته شوی ، په بیله بیا د دې شتمنۍ لپاره پخوانۍ حافظې او CPU اړتیاوې که دا دمخه سکین شوی. بیا، د هرې ډاټا سرچینې لپاره (لکه څنګه چې سرچینې شتون لري)، یو دنده ویل کیږي چې واقعیا سرچینې سکین کړي.

هره دنده یو ترتیب شوی بائنری فایل دی چې د هرې شتمنۍ لپاره موجود وروستي ډیټا کې د برنولي نمونې ترسره کوي. شتمنۍ په انفرادي کالمونو ویشل شوې، چیرې چې د هر کالم د ډلبندۍ پایله په خپلواک ډول پروسس کیږي. سربیره پردې، سیسټم په کالمونو کې د هر ډول سنتر شوي معلوماتو لپاره سکین کوي. JSON، صفونه، کوډ شوي جوړښتونه، URLs، بیس 64 سیریل شوي ډاټا، او نور ټول سکین شوي دي. دا کولی شي د سکین اجرا کولو وخت د پام وړ زیات کړي ځکه چې یو واحد میز کولی شي په بلب کې په زرګونو نیست شوي کالمونه ولري json.

د هر قطار لپاره چې د ډیټا شتمنۍ کې غوره شوي، د ډلبندۍ سیسټم د منځپانګې څخه فلوټ او متن توکي استخراجوي او هر توکي بیرته هغه کالم سره شریکوي چې له هغې څخه اخیستل شوي. د فیچر استخراج مرحلې محصول د هر کالم لپاره د ټولو ځانګړتیاو نقشه ده چې د ډیټا شتمنۍ کې موندل کیږي.

نښې د څه لپاره دي؟

د ځانګړتیاوو مفهوم کلیدی دی. د فلوټ او متن ځانګړتیاو پرځای، موږ کولی شو د خام تار نمونې انتقال کړو چې په مستقیم ډول د هرې ډاټا سرچینې څخه استخراج شوي. برسېره پردې، د ماشین زده کړې موډلونه په مستقیم ډول په هره نمونه کې روزل کیدی شي، د سلګونو ځانګړتیاوو حسابونو په پرتله چې یوازې د نمونې نږدې کولو هڅه کوي. د دې څو لاملونه شتون لري:

  1. لومړی محرمیت: تر ټولو مهم، د ځانګړتیاوو مفهوم موږ ته اجازه راکوي چې په حافظه کې یوازې هغه نمونې ذخیره کړو چې موږ یې ترلاسه کوو. دا ډاډ ورکوي چې موږ نمونې د یو واحد هدف لپاره ذخیره کوو او هیڅکله یې زموږ د خپلو هڅو له لارې لاګ نه کوو. دا په ځانګړې توګه د بې ثباته معلوماتو لپاره مهم دی، ځکه چې خدمت باید د وړاندوینې وړاندې کولو دمخه د ډلبندۍ ځینې حالت وساتي.
  2. حافظه: ځینې نمونې کیدای شي په زرګونو حروف اوږد وي. د دې ډول معلوماتو ذخیره کول او د سیسټم برخو ته یې لیږدول په غیر ضروري ډول ډیری اضافي بایټونه مصرفوي. دوه فکتورونه د وخت په تیریدو سره یوځای کیدی شي، په دې شرط چې د زرګونو کالمونو سره ډیری ډیټا سرچینې شتون ولري.
  3. د فیچر راټولول: ځانګړتیاوې په روښانه ډول د ځانګړتیاوو د یوې سیټ له لارې د هر سکین پایلې څرګندوي، سیسټم ته اجازه ورکوي چې د ورته ډیټا سرچینې پخوانی سکین پایلې په مناسبه طریقه سره یوځای کړي. دا د ډیری منډو په اوږدو کې د یوې واحد ډیټا سرچینې څخه د سکین پایلو راټولولو لپاره ګټور کیدی شي.

بیا ځانګړتیاوې د وړاندوینې خدمت ته لیږل کیږي چیرې چې موږ د هر کالم د ډیټا لیبلونو وړاندوینې لپاره د قواعدو پراساس طبقه بندي او ماشین زده کړې کاروو. خدمت په دواړو اصولو کټګوریو او ماشین زده کړې تکیه کوي او د هر وړاندوینې څیز څخه ورکړل شوي غوره وړاندوینې غوره کوي.

د قواعدو طبقه بندي کونکي لاسي هوریستیک دي، دوی د 0 څخه تر 100 پورې د یو شی د نورمال کولو لپاره محاسبې او کوفیفینټ کاروي. کله چې د هر ډیټا ډول او د دې ډیټا سره تړلي کالم نوم لپاره دا ډول لومړنۍ نمرې رامینځته شي ، نو دا په هیڅ ډول "بندیز" کې نه شاملیږي. لیستونه"، د قاعدې ډلبندۍ د ټولو ډیټا ډولونو په منځ کې ترټولو نورمال شوي نمرې غوره کوي.

د ډلبندۍ د پیچلتیا له امله، یوازې په لاسي هوریسټیک باندې تکیه کول د ټیټ ډلبندۍ دقت لامل کیږي، په ځانګړې توګه د غیر منظم معلوماتو لپاره. د دې دلیل لپاره، موږ د ماشین زده کړې سیسټم رامینځته کړی ترڅو د غیر منظم شوي ډیټا طبقه بندي سره کار وکړي لکه د کاروونکي مینځپانګې او پته. د ماشین زده کړې دا ممکنه کړې چې د لاسي هوریستیک څخه لرې حرکت پیل کړي او اضافي ډیټا سیګنالونه پلي کړي (د مثال په توګه د کالم نومونه ، د ډیټا ثابتول) ، د پام وړ د کشف دقت ښه کول. موږ به وروسته زموږ د ماشین زده کړې معمارۍ کې ژور ډوب کړو.

د وړاندوینې خدمت د سکین وخت او حالت په اړه د میټاډاټا سره د هر کالم پایلې ذخیره کوي. هر مصرف کونکي او لاندې پروسې چې پدې ډیټا پورې اړه لري کولی شي دا د ورځني خپاره شوي ډیټا سیټ څخه ولولي. دا سیټ د دې ټولو سکین دندو پایلې راټولوي، یا د ریښتیني وخت ډیټا کتلاګ APIs. خپاره شوي وړاندوینې د محرمیت او امنیت پالیسیو اتوماتیک پلي کولو بنسټ دی.

په نهایت کې ، وروسته له دې چې د وړاندوینې خدمت ټول معلومات لیکي او ټولې وړاندوینې زیرمه شوې ، زموږ د ډیټا کتلاګ API کولی شي د سرچینې لپاره ټول ډیټا ډول وړاندوینې په ریښتیني وخت کې بیرته راولي. هره ورځ سیسټم یو ډیټاسیټ خپروي چې د هرې شتمنۍ لپاره ټول وروستي وړاندوینې لري.

بې ثباته ډاټا

پداسې حال کې چې پورتنۍ پروسه د دوامدار شتمنیو لپاره ډیزاین شوې، غیر دوامداره ترافیک هم د سازمان د معلوماتو برخه ګڼل کیږي او مهم کیدی شي. د دې دلیل لپاره، سیسټم د هر ډول وقفې ترافیک لپاره د ریښتیني وخت درجه بندي وړاندوینې رامینځته کولو لپاره آنلاین API چمتو کوي. د ریښتیني وخت وړاندوینې سیسټم په پراخه کچه د بیروني ترافیک طبقه بندي کولو کې کارول کیږي ، د ماشین زده کړې ماډلونو کې دننه ترافیک او د اعلان کونکي ډیټا.

دلته API دوه اصلي دلیلونه اخلي: د ګروپ کولو کیلي او خام معلومات چې وړاندوینه کیږي. خدمت د ورته شیانو ترلاسه کول ترسره کوي لکه څنګه چې پورته بیان شوي او توکي د ورته کیلي لپاره یوځای ګروپ کوي. دا ځانګړتیاوې د ناکامۍ بیا رغونې لپاره د دوامدار کیچ کې هم ملاتړ کیږي. د هرې ډلې کولو کیلي لپاره، خدمت ډاډ ورکوي چې دا د وړاندوینې خدمت ته زنګ وهلو دمخه کافي نمونې لیدلي ، د پورته بیان شوي پروسې تعقیب.

اصلاح کول

د ځینې ذخیره کولو سکین کولو لپاره، موږ کتابتونونه او تخنیکونه کاروو ترڅو د ګرم ذخیره کولو څخه لوستل غوره کړو [2] او ډاډ ترلاسه کړو چې ورته ذخیره ته د نورو کاروونکو لخوا هیڅ ډول خنډ شتون نلري.

د خورا لوی جدولونو (50+ پیټابایټ) لپاره ، د ټولو غوره کولو او حافظې موثریت سره سره ، سیسټم د حافظې له وتلو دمخه هرڅه سکین او محاسبه کولو لپاره کار کوي. په هرصورت ، سکین په بشپړ ډول په حافظه کې محاسبه کیږي او د سکین پرمهال نه ساتل کیږي. که چیرې لوی جدولونه په زرګونو کالمونه ولري چې د ډیټا غیر منظم شوي کلمپونو سره وي، نو کار ممکن د حافظې د ناکافي سرچینو له امله ناکام شي کله چې په ټول میز کې وړاندوینې ترسره کیږي. دا به د پوښښ کمیدو پایله ولري. د دې سره د مبارزې لپاره، موږ سیسټم غوره کړی ترڅو د سکین سرعت د پراکسي په توګه وکاروو چې سیسټم د اوسني کاري بار څومره ښه اداره کوي. موږ سرعت د وړاندوینې میکانیزم په توګه کاروو ترڅو د حافظې ستونزې وګورو او په وړاندوینه سره د ځانګړتیا نقشه محاسبه کړو. په ورته وخت کې، موږ د معمول په پرتله لږ معلومات کاروو.

د معلوماتو سیګنالونه

د ډلبندۍ سیسټم یوازې د معلوماتو څخه سیګنالونو په څیر ښه دی. دلته به موږ ټول هغه سیګنالونه وګورو چې د ډلبندۍ سیسټم لخوا کارول کیږي.

  • د منځپانګې پر بنسټ: البته، لومړی او خورا مهم سیګنال مواد دی. د برنولي نمونې اخیستل د هرې ډیټا شتمنۍ کې ترسره کیږي چې موږ د ډیټا مینځپانګې پراساس ب featuresې سکین او استخراج کوو. ډیری نښې د منځپانګې څخه راځي. هر ډول تیر شوي شیان ممکن دي، کوم چې د یو ځانګړي نمونې ډول څو ځله لیدل شوي محاسبه څرګندوي. د مثال په توګه، موږ ممکن په نمونه کې د لیدل شوي بریښنالیکونو شمیرې نښې ولرو، یا په نمونه کې د څومره ایموجیزونو نښې نښانې لیدل کیږي. د دې ځانګړتیاو محاسبه په مختلف سکینونو کې نورمال او راټول کیدی شي.
  • د معلوماتو ثابتول: یو مهم سیګنال چې کولی شي مرسته وکړي کله چې مینځپانګه د اصلي میز څخه بدله شوې وي. یو عام مثال د هش شوي ډاټا دی. کله چې د ماشوم په جدول کې ډاټا هش کیږي، دا ډیری وختونه د والدین میز څخه راځي، چیرته چې دا په روښانه توګه پاتې کیږي. د نسب ډیټا د ډیټا ځینې ډولونو طبقه بندي کولو کې مرسته کوي کله چې دوی په روښانه ډول نه لوستل کیږي یا د پورته میز څخه بدل شوي.
  • تشریحات: یو بل لوړ کیفیت سیګنال چې د غیر منظم شوي ډیټا پیژندلو کې مرسته کوي. په حقیقت کې، تشریحات او د ثبوت ډاټا کولی شي په ګډه کار وکړي ترڅو د مختلفو ډیټا شتمنیو کې د ځانګړتیاوو تبلیغ وکړي. تشریحات د غیر منظم شوي ډیټا سرچینې پیژندلو کې مرسته کوي ، پداسې حال کې چې د نسب ډیټا کولی شي د ذخیره کولو په اوږدو کې د دې معلوماتو جریان تعقیبولو کې مرسته وکړي.
  • د ډیټا انجیکشن یو تخنیک دی چیرې چې ځانګړي ، نه لوستل کیدونکي حروف په قصدي ډول د پیژندل شوي ډیټا ډولونو پیژندل شوي سرچینو ته معرفي کیږي. بیا، هرکله چې موږ د ورته نه لوستلو وړ کرکټر ترتیب سره مینځپانګې سکین کوو، موږ کولی شو دا معلومه کړو چې مینځپانګه د دې پیژندل شوي ډیټا ډول څخه راځي. دا یو بل کیفیتي ډیټا سیګنال دی چې تشریحاتو ته ورته دی. پرته لدې چې د مینځپانګې پراساس کشف د داخل شوي معلوماتو موندلو کې مرسته کوي.

د اندازه کولو میترونه

یوه مهمه برخه د میټریکونو اندازه کولو لپاره یو سخت میتودولوژي ده. د ډلبندۍ د ښه والي تکرار لپاره اصلي میټریکونه د هر لیبل دقیقیت او یادول دي، د F2 سکور سره خورا مهم دی.

د دې میټریکونو محاسبه کولو لپاره ، د ډیټا شتمنیو لیبل کولو خپلواک میتودولوژي ته اړتیا ده چې پخپله د سیسټم څخه خپلواکه وي ، مګر د دې سره د مستقیم پرتله کولو لپاره کارول کیدی شي. لاندې موږ تشریح کوو چې څنګه موږ له فیسبوک څخه ځمکني حقیقت راټولوو او د خپل طبقه بندي سیسټم روزنې لپاره یې کاروو.

د باور وړ معلوماتو راټولول

موږ د لاندې لیست شوي هرې سرچینې څخه په خپل جدول کې د اعتبار وړ معلومات راټولوو. هر جدول د دې ځانګړي سرچینې څخه د وروستي لیدل شوي ارزښتونو راټولولو لپاره مسؤل دی. هره سرچینه د معلوماتو کیفیت چکونه لري ترڅو ډاډ ترلاسه کړي چې د هرې سرچینې لپاره لیدل شوي ارزښتونه لوړ کیفیت لري او د وروستي ډیټا ډول لیبلونه لري.

  • د ننوتلو پلیټ فارم ترتیبونه: په Hive جدولونو کې ځینې ساحې د ډیټا سره ډک شوي چې د ځانګړي ډول څخه دي. د دې معلوماتو کارول او خپرول د حقیقت د باور وړ سرچینې په توګه کار کوي.
  • لاسي لیبل کول: پراختیا کونکي چې سیسټم ساتي او همدارنګه بهرني لیبلران د کالمونو لیبل کولو لپاره روزل شوي. دا عموما په ګودام کې د ټولو ډولونو معلوماتو لپاره ښه کار کوي، او کیدای شي د ځینو غیر منظم معلوماتو لپاره د حقیقت لومړنۍ سرچینه وي، لکه د پیغام ډاټا یا د کاروونکي منځپانګې.
  • د والدینو جدولونو څخه کالمونه په نښه کیدی شي یا تشریح کیدی شي د ځانګړي معلوماتو درلودونکي وي، او موږ کولی شو دا ډاټا د ماشومانو په میزونو کې تعقیب کړو.
  • د اعدام تارونه راوړل: په فیسبوک کې د اعدام تارونه ځانګړي ډوله ډیټا لري. زموږ سکینر د خدماتو جوړښت په توګه کارول، موږ کولی شو هغه جریانونه نمونه کړو چې د ډیټا ډولونه پیژندل شوي او د سیسټم له لارې یې لیږو. سیسټم ژمنه کوي چې دا معلومات به نه ذخیره کوي.
  • د نمونې جدولونه: د پټو لوی میزونه، کوم چې د ټول ډیټا کورپس کې پیژندل شوي، د روزنې ډیټا په توګه هم کارول کیدی شي او د سکینر څخه د خدمت په توګه تیریږي. دا د جدولونو لپاره خورا ښه دی چې د ډیټا ډولونو بشپړ سلسله لري ، نو په تصادفي ډول د کالم نمونه کول د دې ډیټا ډول ټولې سیټ نمونې کولو سره مساوي دي.
  • مصنوعي ډاټا: موږ حتی کولی شو هغه کتابتونونه وکاروو چې په الوتنه کې ډاټا تولیدوي. دا د ساده، عامه معلوماتو ډولونو لکه پته یا GPS لپاره ښه کار کوي.
  • د معلوماتو ساتونکي: د محرمیت برنامې عموما د ډیټا سټوارډز کاروي ترڅو په لاسي ډول د معلوماتو ټوټو ته پالیسۍ وړاندې کړي. دا د حقیقت خورا دقیق سرچینې په توګه کار کوي.

موږ د حقیقت هره لویه سرچینه د دې ټولو معلوماتو سره په یوه کارپس کې یوځای کوو. د اعتبار سره ترټولو لویه ننګونه د دې ډاډ ترلاسه کول دي چې دا د معلوماتو ذخیره نمایندګي ده. که نه نو، د ډلبندۍ انجنونه ممکن ډیر تمرین وکړي. د دې سره د مبارزې لپاره، پورته ټولې سرچینې کارول کیږي ترڅو توازن ډاډمن کړي کله چې د ماډلونو روزنه یا د میترونو محاسبه کول. برسېره پردې، د انسان لیبلر په یو شان ډول په ذخیره کې مختلف کالمونه نمونه کوي او د معلوماتو مطابق لیبل کوي ترڅو د ځمکني حقیقت راټولول بې طرفه پاتې شي.

دوامداره ادغام

د چټک تکرار او پرمختګ ډاډ ترلاسه کولو لپاره، دا مهمه ده چې تل په ریښتیني وخت کې د سیسټم فعالیت اندازه کړئ. موږ کولی شو د نن ورځې سیسټم په وړاندې د هر ډلبندۍ پرمختګ اندازه کړو، نو موږ کولی شو په تاکتیکي توګه د معلوماتو پراساس راتلونکي پرمختګونه لارښود کړو. دلته موږ ګورو چې سیسټم څنګه د فیډبیک لوپ بشپړوي کوم چې د باوري معلوماتو لخوا چمتو کیږي.

کله چې د مهالویش سیسټم د یوې شتمنۍ سره مخ کیږي چې د باوري سرچینې څخه لیبل لري، موږ دوه دندې مهالویش کوو. لومړی زموږ د تولید سکینر کاروي او پدې توګه زموږ د تولید وړتیاوې. دویمه دنده د وروستي ځانګړتیاو سره د وروستي جوړونې سکینر کاروي. هر کار خپل محصول په خپل میز کې لیکي، د ډلبندۍ پایلو سره نسخې ټګ کوي.

دا څنګه موږ په ریښتیني وخت کې د خوشې شوي نوماند او د تولید ماډل د ډلبندۍ پایلې پرتله کوو.

پداسې حال کې چې ډیټاسیټونه د RC او PROD ځانګړتیاوې پرتله کوي، د وړاندوینې خدمت د ML طبقه بندي انجن ډیری تغیرات ننوتل شوي. د ماشین زده کړې ترټولو وروستي جوړ شوی ماډل، په تولید کې اوسنی ماډل، او کوم تجربه لرونکي ماډلونه. ورته طریقه موږ ته اجازه راکوي چې د ماډل مختلف نسخې "ټیټ" کړو (زموږ د قاعدې طبقه بندی کونکو ته اګنوسټیک) او په ریښتیني وخت کې میټریک پرتله کړو. دا دا اسانه کوي چې معلومه کړي کله چې د ML تجربه تولید ته چمتو وي.

هره شپه، د RC ځانګړتیاوې د هغې ورځې لپاره محاسبه شوي د ML روزنې پایپ لاین ته لیږل کیږي، چیرته چې ماډل د وروستي RC ځانګړتیاو په اړه روزل کیږي او د ځمکني حقیقت ډیټاسیټ په وړاندې د هغې فعالیت ارزوي.

هر سهار، ماډل روزنه بشپړوي او په اتوماتيک ډول د تجربوي ماډل په توګه خپریږي. دا په اتوماتيک ډول په تجربوي لیست کې شامل دی.

ځینې ​​​​پایلې

د 100 څخه ډیر مختلف ډوله ډیټا د لوړ دقت سره لیبل شوي. ښه جوړ شوي ډولونه لکه بریښنالیکونه او د تلیفون شمیرې د 2 څخه ډیر د f0,95 سکور سره طبقه بندي شوي. د وړیا ډیټا ډولونه لکه د کارونکي لخوا رامینځته شوي مینځپانګې او نوم هم خورا ښه ترسره کوي ، د F2 نمرو سره د 0,85 څخه ډیر.

د دوامداره او بې ثباته ډیټا لوی شمیر انفرادي کالمونه هره ورځ په ټولو زیرمو کې طبقه بندي کیږي. له 500 څخه ډیر ټیرابایټ هره ورځ د 10 څخه ډیرو ډیټا ګودامونو کې سکین کیږي. ډیری دا ذخیره 98٪ پوښښ لري.

د وخت په تیریدو سره، طبقه بندي ډیره اغیزمنه شوې، په دوامداره آفلاین جریان کې د ډلبندۍ دندې د هر کالم لپاره د وړاندوینو محاسبه کولو لپاره د شتمنۍ سکین کولو څخه اوسط 35 ثانیې وخت نیسي.

د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي
وريجې. 2. ډیاګرام د دوامداره ادغام جریان تشریح کوي ترڅو پوه شي چې څنګه RC توکي تولید شوي او ماډل ته لیږل کیږي.

د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي
شکل 3. د ماشین زده کړې برخې د لوړې کچې ډیاګرام.

د ماشین زده کړې سیسټم برخه

په تیره برخه کې، موږ د سیسټم عمومي جوړښت ته ژوره غوطه ونیوه، پیمانه روښانه کول، اصلاح کول، او آفلاین او آنلاین ډیټا جریان. پدې برخه کې، موږ به د وړاندوینې خدمت وګورو او د ماشین زده کړې سیسټم تشریح کړو چې د وړاندوینې خدمت ته ځواک ورکوي.

د 100 څخه ډیر ډیټا ډولونه او ځینې غیر منظم شوي مینځپانګې لکه د پیغام ډیټا او د کارونکي مینځپانګې سره ، د خالص لاسي هوریسټیکونو کارول د فرعي پیرامیټریک ډلبندۍ دقت پایله لري ، په ځانګړي توګه د غیر منظم ډیټا لپاره. د دې دلیل لپاره، موږ د ماشین زده کړې سیسټم هم رامینځته کړی ترڅو د غیر منظم معلوماتو پیچلتیاو سره معامله وکړي. د ماشین زده کړې کارول تاسو ته اجازه درکوي چې د لاسي هوریستیک څخه لیرې حرکت پیل کړئ او د ځانګړتیاو او اضافي ډیټا سیګنالونو (د مثال په توګه ، د کالم نومونه ، د ډیټا اصلي) سره د دقت ښه کولو لپاره کار وکړئ.

تطبیق شوي ماډل د ویکتور نمایندګۍ مطالعه کوي [3] په جلا توګه د کثافاتو او نری شیانو په اړه. دا بیا د ویکتور جوړولو لپاره یوځای کیږي، کوم چې د وروستۍ پایلې د تولید لپاره د بېچ نورمال کولو لړۍ او غیر خطي مرحلو څخه تیریږي. وروستۍ پایله د هر لیبل لپاره د [4-0] تر مینځ د تیري نقطې شمیره ده، دا احتمال په ګوته کوي چې مثال د دې حساسیت ډول پورې اړه لري. د ماډل لپاره د PyTorch کارول موږ ته اجازه راکوي چې ګړندي حرکت وکړو ، د ټیم څخه بهر پراختیا کونکو ته اجازه راکوي چې ګړندي بدلونونه رامینځته او ازموینه وکړي.

کله چې د معمارۍ ډیزاین کول، دا مهمه وه چې د سپینو (د بیلګې په توګه متن) او کثافت (د بیلګې په توګه عددي) توکي د دوی د اصلي توپیرونو له امله جلا جلا نمونه کړئ. د وروستي معمارۍ لپاره، دا هم مهمه وه چې د پیرامیټر سویپ ترسره کړئ ترڅو د زده کړې نرخ، د بیچ اندازې، او نورو هایپرپرامیټرونو لپاره غوره ارزښت ومومئ. د اصلاح کونکي انتخاب هم یو مهم هایپرپرامیټر و. موږ وموندل چې یو مشهور اصلاح کونکی ادمډیری وختونه د overfitting لامل کیږي، پداسې حال کې چې یو ماډل سره SGD ډیر باثباته. دلته اضافي باریکي شتون درلود چې موږ باید په مستقیم ډول په ماډل کې شامل کړو. د مثال په توګه، جامد قواعد چې ډاډ ترلاسه کوي چې ماډل یو مشخص اټکل کوي کله چې یو ځانګړتیا یو مشخص ارزښت ولري. دا جامد قواعد زموږ د پیرودونکو لخوا تعریف شوي. موږ وموندله چې دوی په مستقیم ډول په ماډل کې شاملول د یو ډیر ځان بسیا او قوي جوړښت لامل شوي ، د دې ځانګړي څنډې قضیې اداره کولو لپاره د پروسس کولو وروسته ګام پلي کولو سره مخالف. دا هم په یاد ولرئ چې دا مقررات د روزنې پرمهال غیر فعال شوي ترڅو د تدریجي نزول روزنې پروسې کې مداخله ونه کړي.

ستونزې

یو له ننګونو څخه د لوړ کیفیت، باوري معلوماتو راټولول وو. ماډل د هر ټولګي لپاره باور ته اړتیا لري ترڅو دا د شیانو او لیبلونو ترمنځ اتحادیې زده کړي. په تیره برخه کې، موږ د سیسټم اندازه کولو او ماډل روزنې دواړو لپاره د معلوماتو راټولولو میتودونو په اړه بحث وکړ. تحلیل ښودلې چې د ډیټا ټولګي لکه د کریډیټ کارت او بانکي حساب شمیرې زموږ په ګودام کې خورا عام ندي. دا د ماډلونو روزلو لپاره د باور وړ معلوماتو لوی مقدار راټولول ستونزمن کوي. د دې مسلې د حل لپاره، موږ د دې ټولګیو لپاره د مصنوعي ځمکني حقیقت معلوماتو ترلاسه کولو پروسې رامینځته کړې. موږ دا ډول معلومات د حساس ډولونو لپاره تولید کوو په شمول SSN, د کریډیټ کارت شمیرې и روان وو- هغه شمیرې چې ماډل یې دمخه وړاندوینه نشي کولی. دا طریقه د حساس ډیټا ډولونو ته اجازه ورکوي پرته له دې چې د ریښتیني حساس معلوماتو پټولو پورې اړوند د محرمیت خطرونو پرته پروسس شي.

د ځمکني حقایقو مسلو سربیره، د پرانیستې معمارۍ مسلې شتون لري چې موږ یې کار کوو، لکه انزوا بدلول и ژر تمدید. د بدلون جلا کول مهم دي ترڅو ډاډ ترلاسه شي کله چې د شبکې مختلف برخو کې مختلف بدلونونه رامینځته کیږي ، اغیزې په ځانګړي ټولګیو کې جلا کیږي او د وړاندوینې عمومي فعالیت باندې پراخه اغیزه نلري. د وخت د ځنډولو معیارونو ته وده ورکول هم خورا مهم دي ترڅو موږ وکولی شو د روزنې پروسه د ټولو ټولګیو لپاره په مستحکم ځای کې ودروو ، نه په داسې ځای کې چې ځینې ټولګي ډیر تمرین کوي ​​او نور یې نه کوي.

د ځانګړتیا اهمیت

کله چې یو نوی خصوصیت په ماډل کې معرفي شي، موږ غواړو په ماډل باندې د هغې ټولیز اغیز پوه شو. موږ دا هم غواړو ډاډ ترلاسه کړو چې وړاندوینې د انسان د تفسیر وړ دي نو موږ کولی شو په ریښتیا پوه شو چې د هر ډول ډیټا لپاره کومې ځانګړتیاوې کارول کیږي. د دې هدف لپاره موږ پراختیا او معرفي کړې په ټولګي کې د PyTorch ماډل لپاره د ځانګړتیاوو اهمیت. په یاد ولرئ چې دا د عمومي ځانګړتیا اهمیت څخه توپیر لري، کوم چې معمولا ملاتړ کیږي، ځکه چې دا موږ ته نه وايي چې کوم ځانګړتیاوې د یوې ځانګړې ټولګي لپاره مهم دي. موږ د څیز د بیا تنظیم کولو وروسته د وړاندوینې غلطۍ د زیاتوالي په محاسبه کولو سره د یو څیز اهمیت اندازه کوو. یو خصوصیت "مهم" دی کله چې د ارزښتونو بدلول د ماډل غلطی ډیروي ځکه چې پدې حالت کې ماډل د دې وړاندوینې کولو لپاره په فیچر تکیه کوله. یو خصوصیت "غیر مهم" دی کله چې د ارزښتونو بدلول د ماډل تېروتنه نه بدلیږي، ځکه چې پدې حالت کې ماډل دا له پامه غورځولې [5].

د هر ټولګي لپاره د ځانګړتیا اهمیت موږ ته اجازه راکوي چې ماډل تشریح کړو ترڅو موږ وګورو چې ماډل د لیبل وړاندوینه کولو په وخت کې څه ګوري. د مثال په توګه، کله چې موږ تحلیل کوو د ‏‎ADDRبیا موږ تضمین کوو چې د پتې سره تړلې نښه، لکه د پته لاین شمیره، د هر ټولګي لپاره د ځانګړتیاو اهمیت جدول کې لوړ ځای لري ترڅو زموږ انساني الهام د هغه څه سره ښه مطابقت ولري چې ماډل زده کړي.

ارزونې

دا مهمه ده چې د بریالیتوب لپاره یو واحد میټریک تعریف کړئ. موږ غوره کړه F2 - د یادولو او دقت تر مینځ توازن (د یادولو تعصب یو څه لوی دی). یادول د دقت په پرتله د محرمیت کارولو قضیې لپاره خورا مهم دي ځکه چې دا د ټیم لپاره خورا مهم دی چې هیڅ حساس معلومات له لاسه ورنکړي (پداسې حال کې چې مناسب دقت ډاډمن کوي). زموږ د ماډل اصلي F2 فعالیت ارزونه د دې کاغذ له دائرې څخه بهر ده. په هرصورت، د احتیاط سره سم موږ کولی شو د خورا مهم حساس ټولګیو لپاره لوړ (0,9+) F2 نمرې ترلاسه کړو.

اړوند کار

د غیر ساختماني اسنادو اتوماتیک طبقه بندي کولو لپاره ډیری الګوریتمونه شتون لري چې مختلف میتودونه کاروي لکه د نمونې میچ کول ، د اسنادو ورته والي لټون او د ماشین زده کړې مختلف میتودونه (بایسین ، د پریکړې ونې ، k - نږدې ګاونډیان او ډیری نور) [6]. له دې څخه هر یو د ډلبندۍ برخې په توګه کارول کیدی شي. په هرصورت، ستونزه د اندازې وړ ده. په دې مقاله کې د ډلبندۍ طریقه د انعطاف او فعالیت په لور متعصبه ده. دا موږ ته اجازه راکوي چې په راتلونکي کې د نویو ټولګیو ملاتړ وکړو او ځنډ ټیټ وساتو.

د ارقامو د ګوتو په نښه کولو کې هم ډیر کار روان دی. د مثال په توګه، په [7] کې لیکوالانو یوه حل لاره تشریح کړه چې د حساس معلوماتو لیکونو نیولو ستونزې باندې تمرکز کوي. اصلي انګیرنه دا ده چې ډاټا د ګوتو نښان کیدی شي ترڅو د پیژندل شوي حساس معلوماتو سیټ سره سمون ومومي. لیکوالان په [8] کې د محرمیت لیک ورته ورته ستونزه بیانوي ، مګر د دوی حل د ځانګړي Android جوړښت پراساس دی او یوازې هغه وخت طبقه بندي کیږي کله چې د کارونکي عملونه د شخصي معلوماتو شریکولو پایله وي یا که اصلي غوښتنلیک د کارونکي ډیټا لیک کړي. دلته وضعیت یو څه توپیر لري ځکه چې د کارونکي ډیټا هم خورا غیر منظم کیدی شي. له همدې امله، موږ د ګوتو د چاپ په پرتله خورا پیچلي تخنیک ته اړتیا لرو.

په نهایت کې، د ځینو حساسو معلوماتو لپاره د ډیټا کمښت سره د مقابلې لپاره، موږ مصنوعي ډاټا معرفي کړه. د ډیټا د لوړولو په اړه د ادبياتو لویه برخه شتون لري، د بیلګې په توګه، لیکوالانو په [9] کې د روزنې په جریان کې د شور انجیکشن رول وپلټئ او په نظارت شوي زده کړې کې یې مثبتې پایلې لیدلي. د محرمیت په اړه زموږ چلند توپیر لري ځکه چې د شور وړ ډیټا معرفي کول ګټور کیدی شي، او موږ د دې پرځای د لوړ کیفیت مصنوعي ډیټا تمرکز کوو.

پایلې

پدې مقاله کې، موږ یو سیسټم وړاندې کړ چې کولی شي د معلوماتو یوه ټوټه طبقه بندي کړي. دا موږ ته اجازه راکوي چې د محرمیت او امنیت پالیسۍ پلي کولو لپاره سیسټمونه رامینځته کړو. موږ ښودلې چې د توزیع وړ زیربنا، دوامداره ادغام، د ماشین زده کړه او د لوړ کیفیت ډیټا تضمین زموږ د ډیری محرمیت نوښتونو په بریالیتوب کې کلیدي رول لوبوي.

د راتلونکي کار لپاره ډیری لارښوونې شتون لري. پدې کې ممکن د غیر سکیمیټ شوي ډیټا (فایلونو) لپاره ملاتړ چمتو کول شامل وي ، نه یوازې د ډیټا ډول طبقه بندي کول بلکه د حساسیت کچه ​​هم ، او د دقیق مصنوعي مثالونو رامینځته کولو سره د روزنې پرمهال د ځان نظارت شوي زده کړې کارول شامل دي. کوم چې، په بدل کې، به د ماډل سره مرسته وکړي چې د لوی مقدار ضایع کم کړي. راتلونکی کار کولی شي د تفتیش کاري فلو باندې هم تمرکز وکړي، چیرې چې موږ د کشف څخه بهر ځو او د راز راز راز راز سرغړونو اصلي لامل تحلیل وړاندې کوو. دا به د حساسیت تحلیل په قضیو کې مرسته وکړي (د بیلګې په توګه د ډیټا ډول محرمیت حساسیت لوړ دی (د مثال په توګه د کارونکي IP) یا ټیټ (د مثال په توګه د فیسبوک داخلي IP)).

کتابتون

  1. ډیویډ بین ډیویډ، تامر ډومني، او ابیګیل تارم. د سیمانټیک ویب ټیکنالوژیو په کارولو سره د سوداګرۍ ډیټا طبقه بندي. په پیټر F.Ï پټیل-شنایډر، یو پین، پاسکل هیتزلر، پیټر میکا، لی ژانګ، جیف زیډ پین، ایان هوروکس، او برټ ګلیم، مدیران، سیمنټیک ویب - ISWC 2010, مخونه 66-81، برلین، هیډلبرګ، 2010. پسرلی برلین هیډلبرګ.
  2. سبرامنیم مرلیدار، ویټ لویډ، سبیاساچي رای، کوری هیل، ارنسټ لین، ویوین لیو، ستادرو پان، شیوا شنکر، ویسواناتھ سیواکومار، لینپینګ تانګ، او سنجیو کمار. f4: د فیسبوک ګرم BLOB ذخیره کولو سیسټم. په د عملیاتي سیسټمونو ډیزاین او پلي کولو په اړه د USENIX 11م سمپوزیم (OSDI 14), مخونه 383–398, Broomfield, CO، اکتوبر 2014. د USENIX ټولنه.
  3. توماس میکولوف، الیا سوتسکیر، کای چن، ګریګ ایس کوراډو، او جیف ډین. د کلمو او جملو ویشل شوي نمایشونه او د دوی ترکیب. په C. J. C. Burges، L. Bottou، M. Welling، Z. Ghahramani، او K. Q. Weinberger، مدیران، د عصبي معلوماتو پروسس کولو سیسټمونو کې پرمختګونه 26, مخونه 3111-3119. Curran Associates Inc.، 2013.
  4. سرګي Ioffe او کریسټین سیګیدي. د بیچ نورمال کول: د داخلي کوویرایټ شفټ کمولو سره د ژورې شبکې روزنې ګړندي کول. په فرانسیس باخ او ډیویډ بلی کې، مدیران، د ماشین زده کړې په اړه د 32 نړیوال کنفرانس بهیر، ټوک 37 د ماشین زده کړې څیړنې بهیر, مخونه 448-456, Lille, France, 07-09 جولای 2015. PMLR.
  5. لیو بریمن تصادفي ځنګلونه. مچ. زده کړه., 45(1):5–32, اکتوبر 2001.
  6. تیر نو فیو. د معلوماتو کان کیندنې کې د طبقه بندي تخنیکونو سروې.
  7. X. Shu, D. Yao, او E. Bertino. د حساسو معلوماتو د افشا کولو د محرمیت ساتنه. د معلوماتو عدلي او امنیت په اړه IEEE لیږدونه, 10(5):1092–1103, 2015.
  8. ژیمین یانګ، مین یانګ، یوان ژانګ، ګوفی ګو، پینګ نینګ او ژیاوانګ وانګ. غوښتنلیک ورکوونکی: د محرمیت لیک کشف کولو لپاره په Android کې د حساس ډیټا لیږد تحلیل کول. مخونه 1043-1054، 11 2013.
  9. ژیه ژی، ژیهانګ دای، ادوارد ایچ هووی، مین تانګ لونګ او کووک وی لی. د غیر څارل شوي معلوماتو زیاتوالی.

د امنیت او محرمیت لپاره د توزیع وړ ډیټا طبقه بندي
د SkillFactory آنلاین کورسونو په اخیستو سره د مهارتونو او معاش په شرایطو کې له سکریچ یا لیول اپ څخه د مطلوب مسلک ترلاسه کولو څرنګوالي په اړه توضیحات ومومئ:

نور کورسونه

سرچینه: www.habr.com

Add a comment