Isọsọsọtọ data iwọn fun aabo ati aṣiri

Isọsọsọtọ data iwọn fun aabo ati aṣiri

Pipin data ti o da lori akoonu jẹ iṣoro ṣiṣi. Awọn ọna idena ipadanu data ti aṣa (DLP) yanju iṣoro yii nipa titẹ sita data ti o yẹ ati mimojuto awọn aaye ipari fun titẹ ika ọwọ. Fi fun nọmba nla ti awọn orisun data iyipada nigbagbogbo ni Facebook, ọna yii kii ṣe iwọn nikan, ṣugbọn ko munadoko fun ṣiṣe ipinnu ibi ti data n gbe. Iwe yii dojukọ eto ipari-si-opin ti a ṣe lati ṣawari awọn iru atunmọ ifura ni Facebook ni iwọn ati fi agbara mu ibi ipamọ data laifọwọyi ati iṣakoso iwọle.

Ọna ti a ṣalaye nibi ni eto ikọkọ-ipari-si-opin akọkọ wa ti o ngbiyanju lati yanju iṣoro yii nipa iṣakojọpọ awọn ifihan agbara data, ẹkọ ẹrọ, ati awọn ilana ika ọwọ ti aṣa lati maapu ati ṣe iyatọ gbogbo data lori Facebook. Eto ti a ṣapejuwe naa ṣiṣẹ ni agbegbe iṣelọpọ, ṣiṣe iyọrisi aropin F2 ti 0,9+ kọja ọpọlọpọ awọn kilasi ikọkọ lakoko ṣiṣe awọn oye nla ti awọn orisun data kọja awọn dosinni ti awọn ibi ipamọ. Ṣafihan itumọ ti iwe ArXiv ti Facebook lori isọdi data ti iwọn fun aabo ati aṣiri ti o da lori ẹkọ ẹrọ.

Ifihan

Loni, awọn ẹgbẹ n ṣajọ ati tọju data nla ni ọpọlọpọ awọn ọna kika ati awọn ipo [1], lẹhinna data naa jẹ run ni ọpọlọpọ awọn aaye, nigbakan daakọ tabi ti fipamọ ni ọpọlọpọ igba, ti o yorisi alaye iṣowo ti o niyelori ati ifura ti tuka kaakiri ọpọlọpọ data ile-iṣẹ. awọn ile itaja. Nigbati o ba nilo agbari kan lati pade awọn ibeere ofin tabi ilana, gẹgẹbi ibamu pẹlu awọn ilana ni awọn ilana ilu, o di dandan lati gba data nipa ipo ti data ti o nilo. Nigbati ilana aṣiri kan ba sọ pe agbari kan gbọdọ boju-boju gbogbo Awọn Nọmba Aabo Awujọ (SSNs) nigba pinpin alaye ti ara ẹni pẹlu awọn ohun elo laigba aṣẹ, igbesẹ akọkọ ti ẹda ni lati wa gbogbo awọn SSN kọja awọn ile itaja data ti ajo naa. Labẹ iru awọn ipo bẹẹ, iyasọtọ data di pataki [1]. Eto isọdi yoo gba awọn ajo laaye lati fi ipa mu aṣiri ati awọn ilana aabo laifọwọyi, gẹgẹbi mimuuṣe awọn ilana iṣakoso iwọle, idaduro data. Facebook n ṣafihan eto ti a kọ ni Facebook ti o nlo awọn ifihan agbara data lọpọlọpọ, faaji eto iwọn, ati ẹkọ ẹrọ lati ṣawari awọn iru data atunmọ ifura.

Awari data ati isọdi jẹ ilana ti wiwa ati isamisi data ki alaye ti o yẹ le ṣee gba ni iyara ati daradara nigbati o nilo. Ilana ti o wa lọwọlọwọ jẹ kuku afọwọṣe ni iseda ati pe o ni ayẹwo awọn ofin tabi ilana ti o yẹ, ṣiṣe ipinnu iru iru alaye ti o yẹ ki o ni imọra ati kini awọn ipele ifamọ oriṣiriṣi jẹ, ati lẹhinna ṣiṣe awọn kilasi ati awọn ilana isọdi ni ibamu [1]. Idena ipadanu data (DLP) lẹhinna ṣe itẹka data naa ati ṣe abojuto awọn aaye ipari isalẹ lati gba awọn ika ọwọ. Nigbati o ba n ba sọrọ pẹlu ile-itaja ti o wuwo pẹlu petabytes ti data, ọna yii kii ṣe iwọn.

Ibi-afẹde wa ni lati kọ eto isọdi data ti o ṣe iwọn si mejeeji logan ati data olumulo igba diẹ, laisi eyikeyi awọn ihamọ afikun lori iru data tabi ọna kika. Eyi jẹ ibi-afẹde audacious, ati nipa ti ara o wa pẹlu awọn italaya. Igbasilẹ data ti a fun le jẹ ẹgbẹẹgbẹrun awọn ohun kikọ gun.

Isọsọsọtọ data iwọn fun aabo ati aṣiri
Ṣe nọmba 1. Awọn ṣiṣan asọtẹlẹ ori ayelujara ati offline

Nitorina, a gbọdọ ṣe aṣoju rẹ daradara nipa lilo awọn ẹya ara ẹrọ ti o wọpọ ti o le ṣe idapo nigbamii ati ni irọrun gbe ni ayika. Awọn ẹya wọnyi ko yẹ ki o pese isọdi deede nikan, ṣugbọn tun pese irọrun ati extensibility lati ṣafikun ni irọrun ati ṣawari awọn iru data tuntun ni ọjọ iwaju. Ni ẹẹkeji, o nilo lati koju pẹlu awọn tabili aisinipo nla. Awọn data ti o tọ le wa ni ipamọ ni awọn tabili ti o jẹ ọpọlọpọ awọn petabytes ni iwọn. Eyi le ja si awọn iyara ọlọjẹ ti o lọra. Kẹta, a gbọdọ faramọ isọdi SLA ti o muna lori data iyipada. Eyi fi agbara mu eto naa lati ṣiṣẹ daradara, iyara ati deede. Nikẹhin, a gbọdọ pese isọdi data lairi kekere fun data iyipada lati ṣe iyasọtọ akoko gidi bi daradara fun awọn ọran lilo Intanẹẹti.

Iwe yii ṣe apejuwe bi a ṣe ṣe pẹlu awọn italaya loke ati ṣafihan eto isọdi ti o yara ati iwọn ti o ṣe ipinlẹ awọn eroja data ti gbogbo awọn iru, awọn ọna kika, ati awọn orisun ti o da lori eto awọn ẹya ti o wọpọ. A gbooro faaji eto ati ṣẹda awoṣe ikẹkọ ẹrọ aṣa lati ṣe iyasọtọ ni iyara aisinipo ati data ori ayelujara. Iwe yii ti ṣeto bi atẹle: Abala 2 ṣe afihan apẹrẹ gbogbogbo ti eto naa. Abala 3 jiroro lori awọn apakan ti eto ẹkọ ẹrọ kan. Awọn apakan 4 ati 5 ṣe afihan iṣẹ ti o jọmọ ati ṣe ilana awọn itọnisọna iṣẹ iwaju ti iṣẹ.

faaji

Lati koju awọn italaya ti data ori ayelujara ti o tẹsiwaju ati iwọn Facebook, eto isọdi ni awọn ṣiṣan lọtọ meji, eyiti a yoo jiroro ni awọn alaye.

Data Alagbero

Ni ibẹrẹ, eto naa gbọdọ kọ ẹkọ nipa ọpọlọpọ awọn ohun-ini alaye ti Facebook. Fun ibi ipamọ kọọkan, diẹ ninu awọn alaye ipilẹ ni a gba, gẹgẹbi ile-iṣẹ data ti o ni data yẹn, eto ti o ni data naa, ati awọn ohun-ini ti o wa ni ibi ipamọ data pato. Eyi ṣẹda katalogi metadata ti o fun laaye eto lati gba data daradara laisi ikojọpọ awọn alabara ati awọn orisun ti awọn onimọ-ẹrọ miiran lo.

Katalogi metadata yii n pese orisun alaṣẹ fun gbogbo awọn ohun-ini ti a ṣayẹwo ati gba ọ laaye lati tọpa ipo ti awọn ohun-ini lọpọlọpọ. Lilo alaye yii, iṣaju iṣeto ni iṣeto ti o da lori data ti o gba ati alaye inu lati inu eto naa, gẹgẹbi akoko ti dukia naa ti ṣayẹwo ni aṣeyọri ati akoko ti o ṣẹda, ati iranti ti o kọja ati awọn ibeere Sipiyu fun dukia yẹn ti o ba jẹ pe o ti ṣayẹwo tẹlẹ. Lẹhinna, fun awọn orisun data kọọkan (bi awọn orisun ṣe wa), a pe iṣẹ kan lati ṣe ọlọjẹ awọn orisun naa gangan.

Iṣẹ kọọkan jẹ faili alakomeji ti o ṣajọ ti o ṣe iṣapẹẹrẹ Bernoulli lori data tuntun ti o wa fun dukia kọọkan. Ohun-ini naa ti pin si awọn ọwọn kọọkan, nibiti abajade iyasọtọ ti iwe kọọkan ti ni ilọsiwaju ni ominira. Ni afikun, eto naa ṣawari fun eyikeyi data ti o kun laarin awọn ọwọn. JSON, awọn akojọpọ, awọn ẹya ti a fi koodu si, Awọn URL, ipilẹ data 64 serialized, ati diẹ sii ni gbogbo wọn ti ṣayẹwo. Eyi le ṣe alekun akoko ipaniyan ọlọjẹ ni pataki nitori tabili kan le ni ẹgbẹẹgbẹrun awọn ọwọn itẹ-ẹiyẹ ninu blob kan json.

Fun laini kọọkan ti o yan ninu dukia data, eto isọdi yọkuro leefofo ati awọn nkan ọrọ lati inu akoonu ati sopọ ohun kọọkan pada si ọwọn lati eyiti o ti mu. Ijade ti igbesẹ isediwon ẹya jẹ maapu ti gbogbo awọn ẹya fun iwe kọọkan ti a rii ninu dukia data.

Kini awọn ami fun?

Awọn Erongba ti awọn eroja jẹ bọtini. Dipo leefofo ati awọn abuda ọrọ, a le kọja awọn ayẹwo okun aise ti o fa jade taara lati orisun data kọọkan. Ni afikun, awọn awoṣe ikẹkọ ẹrọ le ṣe ikẹkọ taara lori apẹẹrẹ kọọkan, dipo awọn ọgọọgọrun ti awọn iṣiro ẹya ti o gbiyanju lati isunmọ apẹẹrẹ. Awọn idi pupọ lo wa fun eyi:

  1. Aṣiri akọkọ: Ni pataki julọ, imọran awọn ẹya gba wa laaye lati fipamọ sinu iranti nikan awọn ilana wọnyẹn ti a gba pada. Eyi ni idaniloju pe a tọju awọn ayẹwo fun idi kan ati pe ko wọle wọn nipasẹ awọn akitiyan tiwa. Eyi ṣe pataki ni pataki fun data iyipada, nitori iṣẹ naa gbọdọ ṣetọju diẹ ninu ipo isọdi ṣaaju ipese asọtẹlẹ kan.
  2. Iranti: Diẹ ninu awọn ayẹwo le jẹ ẹgbẹẹgbẹrun awọn ohun kikọ gun. Titọju iru data ati gbigbe si awọn apakan ti eto naa lainidi n gba ọpọlọpọ awọn baiti afikun. Awọn ifosiwewe meji le darapọ ni akoko pupọ, fun pe ọpọlọpọ awọn orisun data wa pẹlu ẹgbẹẹgbẹrun awọn ọwọn.
  3. Iṣakojọpọ ẹya: Awọn ẹya ṣe afihan awọn abajade ti ọlọjẹ kọọkan nipasẹ awọn ẹya ara ẹrọ kan, gbigba eto laaye lati ṣajọpọ awọn abajade ti awọn ọlọjẹ iṣaaju ti orisun data kanna ni ọna irọrun. Eyi le jẹ iwulo fun iṣakojọpọ awọn abajade ọlọjẹ lati orisun data ẹyọkan kọja awọn ṣiṣe lọpọlọpọ.

Awọn ẹya ara ẹrọ naa ni a firanṣẹ si iṣẹ asọtẹlẹ nibiti a ti lo isọdi ti o da lori ofin ati ẹkọ ẹrọ lati ṣe asọtẹlẹ awọn aami data ti iwe kọọkan. Iṣẹ naa da lori awọn ikasi ofin mejeeji ati ẹkọ ẹrọ ati yan asọtẹlẹ ti o dara julọ ti a fun lati nkan asọtẹlẹ kọọkan.

Awọn kilasika ofin jẹ awọn heuristics afọwọṣe, wọn lo awọn iṣiro ati awọn iyeida lati ṣe deede ohun kan si iwọn 0 si 100. Ni kete ti iru Dimegilio ibẹrẹ ti ipilẹṣẹ fun iru data kọọkan ati orukọ ọwọn ti o ni nkan ṣe pẹlu data yẹn, ko si ninu eyikeyi “ban awọn akojọ" , Awọn ofin classifier yan awọn ga tobojumu Dimegilio laarin , gbogbo data orisi.

Nitori idiju ti isọdi, gbigberale daada lori awọn abajade heuristics afọwọṣe ni deede isọdi kekere, pataki fun data ti ko ṣeto. Fun idi eyi, a ṣe agbekalẹ eto ẹkọ ẹrọ kan lati ṣiṣẹ pẹlu isọdi ti data ti a ko ṣeto gẹgẹbi akoonu olumulo ati adirẹsi. Ẹkọ ẹrọ ti jẹ ki o ṣee ṣe lati bẹrẹ lati lọ kuro ni awọn heuristics afọwọṣe ati lo awọn ifihan agbara data afikun (fun apẹẹrẹ awọn orukọ ọwọn, iṣafihan data), ilọsiwaju wiwa deede ni pataki. A yoo jinlẹ sinu faaji ikẹkọ ẹrọ wa nigbamii.

Iṣẹ asọtẹlẹ tọju awọn abajade fun iwe kọọkan pẹlu metadata nipa akoko ati ipo ọlọjẹ naa. Eyikeyi awọn alabara ati awọn ilana isale ti o dale lori data yii le ka lati inu data ti a tẹjade lojoojumọ. Eto yii ṣajọpọ awọn abajade ti gbogbo awọn iṣẹ ọlọjẹ wọnyi, tabi Awọn API Catalog Data Akoko-gidi. Awọn asọtẹlẹ ti a tẹjade jẹ ipilẹ fun imuṣiṣẹ adaṣe adaṣe ti ikọkọ ati awọn ilana aabo.

Nikẹhin, lẹhin iṣẹ asọtẹlẹ ti kọ gbogbo data ati gbogbo awọn asọtẹlẹ ti wa ni ipamọ, API Catalog Data wa le da gbogbo awọn asọtẹlẹ iru data pada fun orisun ni akoko gidi. Lojoojumọ eto n ṣe atẹjade datasetiti kan ti o ni gbogbo awọn asọtẹlẹ tuntun fun dukia kọọkan.

Awọn iyipada data

Lakoko ti ilana ti o wa loke jẹ apẹrẹ fun awọn ohun-ini ti o duro, ijabọ ti kii ṣe itẹramọṣẹ tun jẹ apakan ti data agbari ati pe o le ṣe pataki. Fun idi eyi, eto naa n pese API ori ayelujara fun ṣiṣẹda awọn asọtẹlẹ isọdi akoko gidi fun eyikeyi ijabọ lainidii. Eto asọtẹlẹ akoko gidi ni lilo pupọ ni pipin awọn ijabọ ti njade, ijabọ inbound sinu awọn awoṣe ikẹkọ ẹrọ ati data olupolowo.

Nibi API gba awọn ariyanjiyan akọkọ meji: bọtini akojọpọ ati data aise ti o jẹ asọtẹlẹ. Iṣẹ naa ṣe imupadabọ ohun kanna gẹgẹbi a ti ṣalaye loke ati ṣe akojọpọ awọn nkan papọ fun bọtini kanna. Awọn ẹya wọnyi tun ṣe atilẹyin ni kaṣe itẹramọṣẹ fun imularada ikuna. Fun bọtini akojọpọ kọọkan, iṣẹ naa ni idaniloju pe o ti rii awọn ayẹwo to ṣaaju pipe iṣẹ asọtẹlẹ, ni atẹle ilana ti salaye loke.

Iṣapeye

Lati ṣayẹwo diẹ ninu awọn ibi ipamọ, a lo awọn ile-ikawe ati awọn ilana lati mu kika kika pọ si lati ibi ipamọ gbona [2] ati rii daju pe ko si awọn idalọwọduro lati ọdọ awọn olumulo miiran ti n wọle si ibi ipamọ kanna.

Fun awọn tabili nla ti o tobi pupọ (50+ petabytes), laibikita gbogbo awọn iṣapeye ati ṣiṣe iranti, eto naa n ṣiṣẹ lati ọlọjẹ ati ṣe iṣiro ohun gbogbo ṣaaju ṣiṣe iranti. Lẹhinna, ọlọjẹ naa ti ṣe iṣiro patapata ni iranti ati pe ko tọju lakoko ọlọjẹ naa. Ti awọn tabili nla ba ni ẹgbẹẹgbẹrun awọn ọwọn pẹlu awọn iṣupọ data ti a ko ṣeto, iṣẹ naa le kuna nitori awọn orisun iranti ti ko to nigbati o ba n ṣe awọn asọtẹlẹ lori gbogbo tabili. Eyi yoo ja si idinku agbegbe. Lati dojuko eyi, a ṣe iṣapeye eto naa lati lo iyara ọlọjẹ bi aṣoju fun bawo ni eto naa ṣe n kapa iṣẹ ṣiṣe lọwọlọwọ. A nlo iyara bi ẹrọ asọtẹlẹ lati wo awọn iṣoro iranti ati asọtẹlẹ maapu ẹya ara ẹrọ. Ni akoko kanna, a lo data ti o kere ju deede.

Awọn ifihan agbara data

A classification eto jẹ nikan dara bi awọn ifihan agbara lati awọn data. Nibi a yoo wo gbogbo awọn ifihan agbara ti eto isọdi lo.

  • Da Akoonu: Dajudaju, ifihan akọkọ ati pataki julọ jẹ akoonu. Iṣapẹẹrẹ Bernoulli ni a ṣe lori dukia data kọọkan ti a ṣe ayẹwo ati jade awọn ẹya ti o da lori akoonu data naa. Ọpọlọpọ awọn ami wa lati akoonu. Nọmba eyikeyi ti awọn nkan lilefoofo le ṣee ṣe, eyiti o ṣe aṣoju awọn iṣiro ti iye igba ti iru apẹẹrẹ kan ti rii. Fun apẹẹrẹ, a le ni awọn ami ti nọmba awọn imeeli ti a rii ninu apẹẹrẹ, tabi awọn ami ti iye emojis ti a rii ninu apẹẹrẹ kan. Awọn iṣiro ẹya ara ẹrọ le jẹ deede ati kojọpọ kọja awọn iwoye oriṣiriṣi.
  • Provenance Data: Ohun pataki ifihan agbara ti o le ran nigbati awọn akoonu ti yi pada lati awọn obi tabili. Apeere ti o wọpọ jẹ data hashed. Nigba ti data ni a ọmọ tabili ti wa ni hashed, ti o igba wa lati awọn obi tabili, ibi ti o ti maa wa ni ko o. Awọn data iran ṣe iranlọwọ lati ṣe iyatọ awọn iru data kan nigbati wọn ko ba ka ni gbangba tabi ti yipada lati tabili oke.
  • Awọn asọye: Ifihan agbara-giga miiran ti o ṣe iranlọwọ ni idamo data ti a ko ṣeto. Ni otitọ, awọn alaye asọye ati awọn alaye asọtẹlẹ le ṣiṣẹ papọ lati tan awọn abuda kọja awọn ohun-ini data oriṣiriṣi. Awọn asọye ṣe iranlọwọ idanimọ orisun ti data ti ko ṣeto, lakoko ti data iran le ṣe iranlọwọ lati tọpinpin sisan ti data yẹn jakejado ibi ipamọ naa.
  • Abẹrẹ data jẹ ilana nibiti pataki, awọn ohun kikọ ti a ko le ka ni a ṣe afihan ni imomose sinu awọn orisun ti a mọ ti awọn iru data ti a mọ. Lẹhinna, nigbakugba ti a ba ṣayẹwo akoonu pẹlu ọna kikọ ti a ko le ka kanna, a le sọ pe akoonu wa lati iru data ti a mọ. Eyi jẹ ifihan agbara data agbara miiran ti o jọra si awọn asọye. Ayafi ti iṣawari orisun akoonu ṣe iranlọwọ ṣe iwari data ti a tẹ sii.

Awọn iwọn wiwọn

Apakan pataki jẹ ilana ti o muna fun wiwọn awọn metiriki. Awọn metiriki akọkọ fun aṣetunṣe ilọsiwaju isọdi jẹ pipe ati iranti ti aami kọọkan, pẹlu Dimegilio F2 jẹ pataki julọ.

Lati ṣe iṣiro awọn metiriki wọnyi, ilana ominira fun isamisi awọn ohun-ini data nilo ti o jẹ ominira ti eto funrararẹ, ṣugbọn o le ṣee lo fun lafiwe taara pẹlu rẹ. Ni isalẹ a ṣe apejuwe bi a ṣe n gba otitọ ilẹ lati Facebook ati lo lati ṣe ikẹkọ eto isọdi wa.

Gbigba data ti o gbẹkẹle

A kojọpọ data igbẹkẹle lati orisun kọọkan ti a ṣe akojọ si isalẹ sinu tabili tirẹ. Tabili kọọkan jẹ iduro fun iṣakojọpọ awọn iye akiyesi tuntun lati orisun yẹn pato. Orisun kọọkan ni awọn sọwedowo didara data lati rii daju pe awọn iye akiyesi fun orisun kọọkan jẹ didara ga ati ni awọn aami iru data tuntun ni.

  • Awọn atunto iru ẹrọ iwọle: Awọn aaye kan ninu awọn tabili ile Agbon ti kun pẹlu data ti o jẹ ti iru kan pato. Lilo ati itankale data yii ṣiṣẹ bi orisun ti o gbẹkẹle ti otitọ.
  • Ifi aami afọwọṣe: Awọn olupilẹṣẹ ti n ṣetọju eto naa bakanna bi awọn akole ita ti ni ikẹkọ lati ṣe aami awọn ọwọn. Eyi ni gbogbogbo ṣiṣẹ daradara fun gbogbo iru data ninu ile-itaja, ati pe o le jẹ orisun akọkọ ti otitọ fun diẹ ninu awọn data ti a ko ṣeto, gẹgẹbi data ifiranṣẹ tabi akoonu olumulo.
  • Awọn ọwọn lati awọn tabili obi le jẹ samisi tabi ṣe akọsilẹ bi awọn data kan ninu, ati pe a le tọpinpin data yẹn ninu awọn tabili awọn ọmọde.
  • Gbigba awọn okun ti ipaniyan: awọn okun ti ipaniyan ni Facebook gbe awọn iru data kan pato. Lilo ọlọjẹ wa bi faaji iṣẹ, a le ṣe ayẹwo awọn ṣiṣan ti o ti mọ iru data ati firanṣẹ nipasẹ eto naa. Eto naa ṣe ileri lati ko tọju data yii.
  • Awọn tabili apẹẹrẹ: Awọn tabili ile elegbo nla, eyiti a mọ lati ni gbogbo kopu data ninu, tun le ṣee lo bi data ikẹkọ ati kọja nipasẹ ẹrọ iwoye bi iṣẹ kan. Eyi jẹ nla fun awọn tabili pẹlu awọn oriṣi data ni kikun, nitorinaa iṣapẹẹrẹ iwe kan ni ID jẹ deede si iṣapẹẹrẹ gbogbo ṣeto iru data yẹn.
  • Data sintetiki: A le paapaa lo awọn ile-ikawe ti o ṣe agbejade data lori fo. Eyi ṣiṣẹ daradara fun irọrun, awọn iru data gbangba gẹgẹbi adirẹsi tabi GPS.
  • Awọn iriju Data: Awọn eto aṣiri nigbagbogbo lo awọn iriju data lati fi ọwọ le awọn eto imulo si awọn ege data. Eyi ṣiṣẹ bi orisun otitọ ti o peye gaan.

A darapọ gbogbo orisun pataki ti otitọ sinu koposi kan pẹlu gbogbo data yẹn. Ipenija ti o tobi julọ pẹlu iwulo ni idaniloju pe o jẹ aṣoju ti ibi ipamọ data. Bibẹẹkọ, awọn ẹrọ isọdi le bori. Lati dojuko eyi, gbogbo awọn orisun ti o wa loke ni a lo lati rii daju iwọntunwọnsi nigbati awọn awoṣe ikẹkọ tabi ṣe iṣiro awọn metiriki. Ni afikun, awọn akole eniyan ni iṣọkan ṣe ayẹwo awọn oriṣiriṣi awọn ọwọn ninu ibi ipamọ ati ṣe aami data ni ibamu ki ikojọpọ otitọ ilẹ wa ni aiṣedeede.

Itẹsiwaju Integration

Lati rii daju aṣetunṣe iyara ati ilọsiwaju, o ṣe pataki lati wiwọn iṣẹ ṣiṣe eto nigbagbogbo ni akoko gidi. A le ṣe iwọn gbogbo ilọsiwaju isọdi lodi si eto loni, nitorinaa a le ṣe itọsọna ọgbọn ni itọsọna awọn ilọsiwaju iwaju ti o da lori data. Nibi a wo bii eto naa ṣe pari lupu esi ti o pese nipasẹ data to wulo.

Nigbati eto iṣeto ba pade dukia ti o ni aami kan lati orisun ti o gbẹkẹle, a ṣeto awọn iṣẹ-ṣiṣe meji. Ni igba akọkọ ti nlo ẹrọ ọlọjẹ iṣelọpọ wa ati nitorinaa awọn agbara iṣelọpọ wa. Iṣẹ-ṣiṣe keji nlo ọlọjẹ Kọ tuntun pẹlu awọn ẹya tuntun. Iṣẹ-ṣiṣe kọọkan kọ abajade rẹ si tabili tirẹ, fifi aami si awọn ẹya pẹlu awọn abajade isọdi.

Eyi ni bii a ṣe ṣe afiwe awọn abajade isọdi ti oludije itusilẹ ati awoṣe iṣelọpọ ni akoko gidi.

Lakoko ti awọn akopọ data ṣe afiwe awọn ẹya RC ati PROD, ọpọlọpọ awọn iyatọ ti ẹrọ isọdi ML ti iṣẹ asọtẹlẹ ti wọle. Awoṣe ikẹkọ ẹrọ laipẹ ti a ṣe, awoṣe lọwọlọwọ ni iṣelọpọ, ati awọn awoṣe adaṣe eyikeyi. Ọna kanna gba wa laaye lati “bibẹ” awọn ẹya oriṣiriṣi ti awoṣe (agnostic si awọn kilasika ofin wa) ati ṣe afiwe awọn metiriki ni akoko gidi. Eyi jẹ ki o rọrun lati pinnu nigbati idanwo ML ti ṣetan lati lọ si iṣelọpọ.

Ni alẹ kọọkan, awọn ẹya RC ti a ṣe iṣiro fun ọjọ yẹn ni a firanṣẹ si opo gigun ti ikẹkọ ML, nibiti awoṣe ti ṣe ikẹkọ lori awọn ẹya RC tuntun ati ṣe iṣiro iṣẹ ṣiṣe rẹ lodi si ipilẹ data otitọ ilẹ.

Ni owurọ kọọkan, awoṣe pari ikẹkọ ati pe a tẹjade laifọwọyi bi awoṣe adanwo. O ti wa ni laifọwọyi wa ninu awọn esiperimenta akojọ.

Diẹ ninu awọn esi

Ju awọn oriṣi 100 oriṣiriṣi ti data jẹ aami pẹlu iṣedede giga. Awọn oriṣi ti a ṣeto daradara gẹgẹbi imeeli ati awọn nọmba foonu jẹ ipin pẹlu Dimegilio f2 ti o tobi ju 0,95. Awọn oriṣi data ọfẹ gẹgẹbi akoonu ti ipilẹṣẹ olumulo ati orukọ tun ṣe daradara, pẹlu awọn ikun F2 ti o tobi ju 0,85.

Nọmba nla ti awọn ọwọn ẹni kọọkan ti data itẹramọṣẹ ati iyipada ti wa ni ipin lojoojumọ kọja gbogbo awọn ibi ipamọ. Diẹ sii ju awọn terabytes 500 ni a ṣayẹwo lojoojumọ kọja diẹ sii ju awọn ile itaja data 10 lọ. Pupọ julọ awọn ibi ipamọ wọnyi ni diẹ sii ju 98% agbegbe.

Ni akoko pupọ, isọdi ti di imunadoko pupọ, pẹlu awọn iṣẹ isọdi ni ṣiṣan aisinipo ti o tẹsiwaju ti o gba aropin iṣẹju 35 lati ọlọjẹ dukia kan si iṣiro awọn asọtẹlẹ fun iwe kọọkan.

Isọsọsọtọ data iwọn fun aabo ati aṣiri
Iresi. 2. Aworan ti n ṣalaye ṣiṣan iṣọpọ lemọlemọfún lati ni oye bi awọn nkan RC ṣe ti ipilẹṣẹ ati firanṣẹ si awoṣe.

Isọsọsọtọ data iwọn fun aabo ati aṣiri
Ṣe nọmba 3. Aworan ti o ga julọ ti paati ẹkọ ẹrọ.

Ẹrọ eto paati

Ni abala ti tẹlẹ, a mu besomi jinlẹ sinu faaji eto gbogbogbo, ti n ṣe afihan iwọn, iṣapeye, ati offline ati ṣiṣan data lori ayelujara. Ni apakan yii, a yoo wo iṣẹ asọtẹlẹ ati ṣapejuwe eto ẹkọ ẹrọ ti o ṣe agbara iṣẹ asọtẹlẹ naa.

Pẹlu awọn iru data to ju 100 lọ ati diẹ ninu akoonu ti a ko ṣeto gẹgẹbi data ifiranṣẹ ati akoonu olumulo, ni lilo awọn abajade heuristics afọwọṣe ni mimọ ni deede isọdi subparametric, pataki fun data ti a ko ṣeto. Fun idi eyi, a tun ti ṣe agbekalẹ eto ẹkọ ẹrọ lati koju awọn idiju ti data ti a ko ṣeto. Lilo ẹkọ ẹrọ gba ọ laaye lati bẹrẹ gbigbe kuro ni awọn heuristics afọwọṣe ati ṣiṣẹ pẹlu awọn ẹya ati awọn ifihan agbara data afikun (fun apẹẹrẹ, awọn orukọ ọwọn, orisun data) lati mu ilọsiwaju dara si.

Awoṣe imuse ṣe iwadii awọn aṣoju fekito [3] lori ipon ati awọn nkan fọnka lọtọ. Awọn wọnyi ti wa ni idapo lati dagba kan fekito, eyi ti o lọ nipasẹ kan lẹsẹsẹ ti deede ipele [4] ati aiṣedeede awọn igbesẹ ti lati gbe awọn ik esi. Abajade ipari jẹ nọmba aaye lilefoofo laarin [0-1] fun aami kọọkan, nfihan iṣeeṣe pe apẹẹrẹ jẹ ti iru ifamọ yẹn. Lilo PyTorch fun awoṣe gba wa laaye lati gbe yiyara, gbigba awọn olupilẹṣẹ ni ita ẹgbẹ lati ṣe iyara ati idanwo awọn ayipada.

Nigbati o ba n ṣe apẹrẹ faaji, o ṣe pataki lati ṣe awoṣe fọnka (fun apẹẹrẹ ọrọ) ati ipon (fun apẹẹrẹ nomba) awọn nkan lọtọ nitori awọn iyatọ atorunwa wọn. Fun faaji ti o kẹhin, o tun ṣe pataki lati ṣe igbasilẹ paramita lati wa iye ti o dara julọ fun oṣuwọn ikẹkọ, iwọn ipele, ati awọn hyperparameters miiran. Yiyan ti optimizer tun jẹ hyperparameter pataki kan. A ri wipe a gbajumo optimizer Adamigba nyorisi overfitting, ko da a awoṣe pẹlu SGD diẹ idurosinsin. Awọn nuances afikun wa ti a ni lati ni taara ninu awoṣe. Fun apẹẹrẹ, awọn ofin aimi ti o rii daju pe awoṣe ṣe asọtẹlẹ ipinnu nigbati ẹya kan ni iye kan. Awọn ofin aimi wọnyi jẹ asọye nipasẹ awọn alabara wa. A rii pe iṣakojọpọ wọn taara sinu awoṣe yorisi ni ti ara ẹni diẹ sii ati faaji ti o lagbara, ni ilodi si imuse igbesẹ lẹhin-ilọsiwaju lati mu awọn ọran eti pataki wọnyi. Tun ṣe akiyesi pe awọn ofin wọnyi jẹ alaabo lakoko ikẹkọ ki o má ba dabaru pẹlu ilana ikẹkọ isọlẹ gradient.

Isoro

Ọkan ninu awọn italaya ni gbigba didara giga, data igbẹkẹle. Awoṣe naa nilo igbẹkẹle fun kilasi kọọkan ki o le kọ ẹkọ awọn ẹgbẹ laarin awọn nkan ati awọn akole. Ni apakan ti tẹlẹ, a jiroro awọn ọna gbigba data fun wiwọn eto mejeeji ati ikẹkọ awoṣe. Onínọmbà fihan pe awọn kilasi data gẹgẹbi kaadi kirẹditi ati awọn nọmba akọọlẹ banki ko wọpọ pupọ ni ile-itaja wa. Eyi jẹ ki o nira lati gba iye nla ti data igbẹkẹle lati kọ awọn awoṣe. Lati koju ọran yii, a ti ṣe agbekalẹ awọn ilana fun gbigba data otitọ ilẹ sintetiki fun awọn kilasi wọnyi. A ṣe ipilẹṣẹ iru data fun awọn iru ifura pẹlu SSN, kirẹditi kaadi awọn nọmba и IBAN-awọn nọmba fun eyi ti awoṣe ko le ṣe asọtẹlẹ tẹlẹ. Ọna yii ngbanilaaye awọn iru data ifura lati ṣiṣẹ laisi awọn eewu aṣiri ti o nii ṣe pẹlu fifipamọ data ifura gangan.

Yato si awọn ọran otitọ ilẹ, awọn ọran ayaworan ṣiṣi wa ti a n ṣiṣẹ lori, bii yi ipinya и tete idaduro. Ipinya iyipada jẹ pataki lati rii daju pe nigbati awọn ayipada oriṣiriṣi ba ṣe si awọn oriṣiriṣi awọn ẹya ti nẹtiwọọki, ipa naa ya sọtọ si awọn kilasi kan pato ati pe ko ni ipa nla lori iṣẹ ṣiṣe asọtẹlẹ gbogbogbo. Ilọsiwaju awọn ibeere idaduro ni kutukutu tun jẹ pataki ki a le da ilana ikẹkọ duro ni aaye iduroṣinṣin fun gbogbo awọn kilasi, dipo aaye kan nibiti diẹ ninu awọn kilasi ṣe bori ati awọn miiran ko ṣe.

Pataki ẹya

Nigbati ẹya tuntun ba ṣafihan sinu awoṣe, a fẹ lati mọ ipa gbogbogbo rẹ lori awoṣe. A tun fẹ lati rii daju pe awọn asọtẹlẹ jẹ itumọ eniyan ki a le ni oye gangan kini awọn ẹya ti a lo fun iru data kọọkan. Fun idi eyi a ti ni idagbasoke ati ṣafihan nipa kilasi pataki awọn ẹya ara ẹrọ fun awoṣe PyTorch. Ṣe akiyesi pe eyi yatọ si pataki ẹya-ara gbogbogbo, eyiti o jẹ atilẹyin nigbagbogbo, nitori ko sọ fun wa awọn ẹya wo ni pataki fun kilasi kan pato. A ṣe iwọn pataki ohun kan nipa ṣiṣe iṣiro ilosoke ninu aṣiṣe asọtẹlẹ lẹhin atunto nkan naa. Ẹya kan jẹ “pataki” nigbati yiyipada awọn iye pọ si aṣiṣe awoṣe nitori ninu ọran yii awoṣe ti gbarale ẹya naa lati sọ asọtẹlẹ rẹ. Ẹya kan jẹ “ko ṣe pataki” nigbati sisọ awọn iye rẹ jẹ ki aṣiṣe awoṣe ko yipada, nitori ninu ọran yii awoṣe kọju rẹ [5].

Pataki ti ẹya-ara fun kilasi kọọkan jẹ ki a ṣe itumọ awoṣe ki a le rii ohun ti awoṣe n wo nigbati o n sọ asọtẹlẹ aami kan. Fun apẹẹrẹ, nigba ti a ṣe itupalẹ ADDR, lẹhinna a ṣe iṣeduro pe ami ti o ni nkan ṣe pẹlu adirẹsi, gẹgẹbi AddressLinesCount, Awọn ipo giga ni tabili pataki ẹya fun kilasi kọọkan ki intuition eniyan wa ni ibamu daradara pẹlu ohun ti awoṣe ti kọ.

imọ

O ṣe pataki lati ṣalaye metiriki kan fun aṣeyọri. A yan F2 - dọgbadọgba laarin ÌRÁNTÍ ati awọn išedede (ìbáṣepọ ÌRÁNTÍ ni die-die o tobi). ÌRÁNTÍ ṣe pataki diẹ sii fun ọran lilo ikọkọ ju deede nitori pe o ṣe pataki fun ẹgbẹ lati ma padanu data ifura eyikeyi (lakoko ti o rii daju pe deede). Ayẹwo iṣẹ ṣiṣe F2 gangan ti awoṣe wa kọja ipari ti iwe yii. Bibẹẹkọ, pẹlu yiyi iṣọra a le ṣaṣeyọri giga (0,9+) F2 fun awọn kilasi ifura pataki julọ.

Jẹmọ iṣẹ

Ọpọlọpọ awọn algoridimu wa fun isọdi laifọwọyi ti awọn iwe aṣẹ ti ko ni eto nipa lilo awọn ọna oriṣiriṣi bii ibamu apẹrẹ, wiwa iwe ibajọra ati awọn ọna ikẹkọ ẹrọ oriṣiriṣi (Bayesian, awọn igi ipinnu, awọn aladugbo k-sunmọ ati ọpọlọpọ awọn miiran) [6]. Eyikeyi ninu iwọnyi le ṣee lo gẹgẹbi apakan ti isọdi. Sibẹsibẹ, iṣoro naa jẹ scalability. Ọna iyasọtọ ninu nkan yii jẹ abosi si irọrun ati iṣẹ ṣiṣe. Eyi n gba wa laaye lati ṣe atilẹyin awọn kilasi tuntun ni ọjọ iwaju ati jẹ ki airi dinku.

Iṣẹ pupọ tun wa lori titẹ ikawe data. Fun apẹẹrẹ, awọn onkọwe ni [7] ṣe apejuwe ojutu kan ti o dojukọ iṣoro ti yiya awọn jijo data ifura. Ironu ti o wa ni ipilẹ ni pe data le jẹ itẹka lati baamu pẹlu ṣeto ti data ifura ti a mọ. Awọn onkọwe ni [8] ṣapejuwe iṣoro ti o jọra ti jijo asiri, ṣugbọn ojutu wọn da lori faaji Android kan pato ati pe wọn jẹ ipin nikan ti awọn iṣe olumulo ba ja si pinpin alaye ti ara ẹni tabi ti ohun elo abẹlẹ ba n jo data olumulo. Awọn ipo nibi ni itumo ti o yatọ nitori olumulo data le tun ti wa ni gíga unstructured. Nitorinaa, a nilo ilana eka diẹ sii ju itẹka ika.

Nikẹhin, lati koju awọn aito data fun diẹ ninu awọn iru data ifura, a ṣe agbekalẹ data sintetiki. Awọn iwe-iwe nla kan wa lori imudara data, fun apẹẹrẹ, awọn onkọwe ni [9] ṣawari ipa ti abẹrẹ ariwo lakoko ikẹkọ ati ṣe akiyesi awọn abajade rere ni ikẹkọ abojuto. Ọna wa si ikọkọ yatọ nitori iṣafihan data alariwo le jẹ atako, ati pe a dipo dojukọ data sintetiki didara to gaju.

ipari

Ninu iwe yii, a ṣe afihan eto kan ti o le ṣe iyatọ nkan kan ti data. Eyi n gba wa laaye lati ṣẹda awọn eto lati fi ipa mu aṣiri ati awọn eto imulo aabo. A ti ṣe afihan pe awọn amayederun ti iwọn, iṣọpọ lemọlemọfún, ẹkọ ẹrọ ati idaniloju data didara ga ni ipa pataki ninu aṣeyọri ti ọpọlọpọ awọn ipilẹṣẹ ikọkọ wa.

Awọn itọnisọna pupọ wa fun iṣẹ iwaju. Eyi le pẹlu pipese atilẹyin fun data ti ko ṣe eto (awọn faili), titọka kii ṣe iru data nikan ṣugbọn ipele ifamọ, ati lilo ikẹkọ ti ara ẹni lakoko ikẹkọ nipasẹ ṣiṣe awọn apẹẹrẹ sintetiki deede. Eyi, ni ọna, yoo ṣe iranlọwọ fun awoṣe naa dinku awọn adanu nipasẹ iye ti o tobi julọ. Iṣẹ iwaju le tun dojukọ iṣan-iṣẹ iwadii, nibiti a ti kọja wiwa ati pese itupalẹ idi root ti ọpọlọpọ awọn irufin ikọkọ. Eyi yoo ṣe iranlọwọ ni awọn ọran bii itupalẹ ifamọ (ie boya ifamọ asiri ti iru data jẹ giga (fun apẹẹrẹ IP olumulo) tabi kekere (fun apẹẹrẹ Facebook ti abẹnu IP)).

Iwe itan-akọọlẹ

  1. David Ben-David, Tamari Domany, ati Abigaili Taremu. Iyasọtọ data ile-iṣẹ nipa lilo awọn imọ-ẹrọ wẹẹbu atunmọ. Ninu Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, ati Birte Glimm, awọn olootu, Oju opo wẹẹbu Semantic - ISWC 2010, ojú ìwé 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, ati Sanjeev Kumar. f4: Eto ipamọ BLOB gbona ti Facebook. Ninu Apejọ USENIX 11th lori Apẹrẹ Awọn ọna ṣiṣe ati imuse (OSDI 14), ojúewé 383–398, Broomfield, CO, October 2014. USENIX Association.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, ati Jeff Dean. Awọn aṣoju pinpin ti awọn ọrọ ati awọn gbolohun ọrọ ati akojọpọ wọn. Ninu C.J.C. Burges, L. Bottou, M. Welling, Z. Ghahramani, ati K.Q. Weinberger, awọn olootu, Awọn ilọsiwaju ninu Awọn ọna ṣiṣe Alaye Iwifun 26, ojú ìwé 3111–3119 . Curran Associates, Inc., ọdun 2013.
  4. Sergey Ioffe ati Christian Szegedy. Iṣe deede ipele: Iyara ikẹkọ nẹtiwọọki ti o jinlẹ nipa idinku iyipada iṣọpọ inu inu. Ninu Francis Bach ati David Blei, awọn olootu, Awọn ilana ti Apejọ Kariaye 32nd lori Ẹkọ Ẹrọ, iwọn didun 37 ti Awọn ilana ti Iwadi Ẹkọ Ẹrọ, ojú ìwé 448–456, Lille, France, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Awọn igbo laileto. Mach. Kọ ẹkọ., 45 (1): 5–32, Oṣu Kẹwa Ọdun 2001.
  6. Thair Nu Phyu. Iwadi ti awọn ilana isọdi ni iwakusa data.
  7. X. Shu, D. Yao, ati E. Bertino. Ṣiṣawari ipamọ-ipamọ ti ifihan data ifura. Awọn iṣowo IEEE lori Awọn oniwadi Alaye ati Aabo, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, ati Xiaoyang Wang. Appintent: Ṣiṣayẹwo gbigbe data ifura ni Android fun wiwa jijo ikọkọ. ojú ìwé 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, ati Quoc V. Le. Augmentation data ti ko ni abojuto.

Isọsọsọtọ data iwọn fun aabo ati aṣiri
Wa awọn alaye lori bii o ṣe le gba oojọ ti a nwa lati ibere tabi Ipele Up ni awọn ofin ti awọn ọgbọn ati owo osu nipa gbigbe awọn iṣẹ ori ayelujara SkillFactory:

Awọn iṣẹ ikẹkọ diẹ sii

orisun: www.habr.com

Fi ọrọìwòye kun