Kala soocida xogta la qiyaasi karo ee amniga iyo gaarnimada

Kala soocida xogta la qiyaasi karo ee amniga iyo gaarnimada

Kala soocida xogta ku salaysan nuxurka waa dhibaato furan. Nidaamyada ka hortagga luminta xogta dhaqameed (DLP) waxay xalliyaan dhibaatadan iyaga oo faraha ka qaadaya xogta ku habboon iyo la socodka meelaha ugu dambeeya ee faraha. Marka la eego tirada badan ee is-beddelka joogtada ah ee ilaha xogta ee Facebook, habkani ma aha oo kaliya mid la qiyaasi karo, laakiin sidoo kale waa mid aan waxtar lahayn si loo go'aamiyo halka ay xogta ku jirto. Warqadani waxay diiradda saaraysaa nidaamka dhammaadka-ilaa-dhamaadka ah ee loo dhisay si loo ogaado noocyada semantic xasaasiga ah ee Facebook ee miisaanka oo si toos ah u xoojiya kaydinta xogta iyo xakamaynta gelitaanka.

Habka lagu sharaxay halkan waa nidaamkayaga qarsoodiga ah ee dhamaadka-ilaa-dhamaadka ah ee isku dayaya inuu xalliyo dhibaatadan iyadoo lagu darayo calaamadaha xogta, barashada mashiinka, iyo farsamooyinka faraha dhaqameed si loo khariideeyo loona kala saaro dhammaan xogta Facebook. Nidaamka lagu sharraxay waxaa lagu shaqeeyaa jawi wax soo saar, isagoo gaarey celceliska F2 dhibcaha 0,9+ ee fasallada qarsoodiga ah ee kala duwan iyada oo la farsameynayo tiro badan oo ilo xog ah daraasiin kayd ah. Soo bandhigida tarjumaada xaashida ArXiv ee Facebook oo ku saabsan kala soocida xogta la miisaami karo ee amniga iyo sirta ee ku salaysan barashada mashiinka.

Horudhac

Maanta, hay'aduhu waxay ururiyaan oo kaydiyaan xog badan oo noocyo kala duwan ah iyo goobo [1], ka dib xogta ayaa lagu wada baabbi'iyaa meelo badan, mararka qaarkoodna la koobiyo ama la kaydiyo dhowr jeer, taas oo keentay in macluumaadka ganacsi ee qiimaha iyo xasaasiga ah lagu kala firdhiyo xog badan oo ganacsi. dukaamada. Marka ururka looga baahan yahay inuu buuxiyo shuruudaha sharci ama sharci, sida u hoggaansanaanta xeerarka dacwadaha madaniga ah, waxay noqonaysaa lagama maarmaan in la ururiyo xogta ku saabsan goobta xogta loo baahan yahay. Marka qaanuunka sirnimadu sheegayo in ururku ku qasban yahay inuu qariyo dhammaan Lambarada Sooshal Sekuuritiga (SSNs) marka macluumaadka shakhsiyeed lala wadaagayo hay'adaha aan la oggolayn, tallaabada ugu horreysa ee dabiiciga ah waa in laga baadho dhammaan SSN-yada dhammaan kaydka xogta ururka. Xaaladahan oo kale, kala-soocidda xogtu waxay noqotaa mid muhiim ah [1]. Nidaamka kala soocida wuxuu u oggolaanayaa ururada inay si toos ah u dhaqangeliyaan siyaasadaha gaarka ah iyo amniga, sida awoodsiinta siyaasadaha xakamaynta gelitaanka, haysashada xogta. Facebook waxa ay soo bandhigaysaa nidaam aanu ku dhisnay Facebook-ga kaas oo isticmaala calaamado xog badan, qaab dhismeed la cabbiri karo, iyo barashada mashiinka si loo ogaado noocyada xogta semantiga ee xasaasiga ah.

Helitaanka iyo kala soocidda xogta waa habka lagu helo iyo calaamadaynta xogta si macluumaadka la xidhiidha si degdeg ah oo hufan loo soo saaro marka loo baahdo. Habka hadda socdaa waa kii dabiciga ahaa ee buug-gacmeedka oo ka kooban in la baaro sharciyada ama xeerarka khuseeya, go'aaminta noocyada macluumaadka ay tahay in loo tixgeliyo xasaasi iyo waxa ay yihiin heerarka kala duwan ee dareenka, ka dibna dhisidda fasallo iyo siyaasadaha kala saarista si waafaqsan [1]. Kahortagga luminta xogta (DLP) ka dib waxay ka qaadaysaa faraha xogta waxayna la socotaa meelaha hoose ee dhamaadka si aad u hesho faraha. Markaad la macaamilayso bakhaar hanti-culus oo leh petabytes oo xog ah, habkani si fudud ma cabbirayo.

Hadafkayagu waa in aan dhisno nidaam kala soocidda xogta taas oo miisaankeedu yahay labadaba xogta isticmaalaha adag iyo kuwa ku meel gaadhka ah, iyada oo aan wax xaddidaad ah oo dheeraad ah lagu samayn nooca xogta ama qaabka. Tani waa yool dhiirran, oo dabiiciyan waxay la timaaddaa caqabado. Diiwaanka xogta la bixiyay waxa uu noqon karaa kumanyaal xaraf.

Kala soocida xogta la qiyaasi karo ee amniga iyo gaarnimada
Jaantuska 1. Socodka saadaasha khadka tooska ah iyo kan offline

Sidaa darteed, waa in aan si hufan u matalnaa iyada oo la adeegsanayo sifooyin guud oo hadhow la isku dari karo oo si fudud loo wareejin karo. Astaamahani waa inaysan bixin oo kaliya kala saarid sax ah, laakiin sidoo kale waxay bixiyaan dabacsanaan iyo awood si si fudud loogu daro loona ogaado noocyada xogta cusub mustaqbalka. Marka labaad, waxaad u baahan tahay inaad wax ka qabato miisaska khadka tooska ah ee waaweyn. Xogta waarta waxaa lagu kaydin karaa miisas leh cabbirka petabytes badan. Tani waxay keeni kartaa in xawaaraha iskaanka uu yaraado. Seddexaad, waa in aan u hogaansannaa kala soocida SLA adag ee xogta kacsan. Tani waxay ku qasbaysaa nidaamka inuu noqdo mid aad u hufan, dhakhso badan oo sax ah. Ugu dambeyntii, waa inaan bixinaa kala soocida xogta daahitaanka hoose ee xogta aan xasilloonayn si loo sameeyo kala soocida waqtiga-dhabta ah iyo sidoo kale kiisaska isticmaalka internetka.

Warqadani waxay qeexaysaa sida aan ula macaamilnay caqabadaha kor ku xusan waxayna soo bandhigaysaa nidaam kala soocid degdeg ah oo la miisaami karo kaas oo kala saara qaybaha xogta ee dhammaan noocyada, qaababka, iyo ilaha ku salaysan sifooyin caadi ah. Waxaan balaadhinay qaab dhismeedka nidaamka waxaana aanu abuurnay nooc wax lagu baranayo mashiinka si aan dhakhso ugu kala saarno xogta khadka iyo khadka. Warqadan waxaa loo habeeyey sida soo socota: Qaybta 2 waxay soo bandhigaysaa naqshadda guud ee nidaamka. Qaybta 3 waxay ka hadlaysaa qaybaha nidaamka barashada mashiinka. Qaybaha 4 iyo 5 waxay muujinayaan shaqada la xidhiidha waxayna qeexayaan tilmaamaha shaqada mustaqbalka.

naqshadaha

Si loola tacaalo caqabadaha joogtada ah iyo qiyaasta xogta internetka ee Facebook-ga, nidaamka kala-saarku wuxuu leeyahay laba qaybood oo kala duwan, kuwaas oo aan si faahfaahsan uga hadli doono.

Xog waara

Markii hore, nidaamku waa inuu wax ka bartaa hantida macluumaadka badan ee Facebook. Kayd kasta, qaar ka mid ah macluumaadka aasaasiga ah ayaa la ururiyaa, sida xarunta xogta ay ku jirto xogtaas, nidaamka ka kooban xogtaas, iyo hantida ku taal kaydka xogta gaarka ah. Tani waxay abuurtaa buug-yaraha xogta badan kaas oo u oggolaanaya nidaamka inuu si hufan u soo saaro xogta iyada oo aan la xad-dhaafin macaamiisha iyo agabka ay isticmaalaan injineerada kale.

Buug-yarahan xogta badan waxa uu bixiyaa il awood leh dhammaan hantida la sawiray oo waxa ay kuu ogolaanaysaa inaad la socoto heerka hantida kala duwan. Isticmaalka macluumaadkan, mudnaanta jadwalka ayaa la dejiyaa iyadoo lagu saleynayo xogta la ururiyey iyo macluumaadka gudaha ee nidaamka, sida markii hantida si guul leh loo sawiray iyo wakhtiga la abuuray, iyo sidoo kale xusuusta hore iyo shuruudaha CPU ee hantidaas haddii hore ayaa loo sawiray. Kadibna, xog kasta oo xog ah (sida kheyraadka la heli karo), shaqo ayaa loo yeeraa si dhab ahaan loo baadho kheyraadka.

Shaqo kastaa waa fayl laba-jibbaaran oo la soo ururiyey kaasoo sameeya muunad Bernoulli xogtii u dambaysay ee hanti kasta loo heli karo. Hantidu waxay u qaybsantaa tiirar gaar ah, halkaas oo natiijada kala soocida tiir kasta si madax-bannaan loogu habeeyo. Intaa waxa dheer, nidaamku waxa uu baadhayaa xog kasta oo buuxsamay tiirarka. JSON, arrays, qaab-dhismeedyo codeed, URL-yada, xogta taxanaha ah ee 64, iyo in ka badan ayaa dhammaantood la sawiray. Tani waxay si weyn u kordhin kartaa wakhtiga fulinta iskaanka sababtoo ah hal miis ayaa ka koobnaan kara kumanaan tiir oo buul ah oo ku jira bulo json.

Saf kasta oo lagu xusho hantida xogta, nidaamka kala-soocidda ayaa ka soo saara sabbaynta iyo walxaha qoraalka nuxurka oo shay kasta dib ugu celiyaa tiirka laga soo qaaday. Soo saarista tallaabada soo saarista sifadu waa khariidad ka kooban dhammaan sifooyinka tiir kasta oo laga helo hantida xogta.

Waa maxay calaamadaha loogu talagalay?

Fikradda sifooyinku waa furaha. Halkii aan lahayn sabaynta iyo sifooyinka qoraalka, waxaan dhaafi karnaa muunado xadhkaha ceeriin ah kuwaas oo si toos ah looga soo saaray kheyraad kasta. Intaa waxaa dheer, moodooyinka barashada mashiinka si toos ah ayaa loogu tababari karaa muunad kasta, halkii ay ka ahaan lahaayeen boqolaal xisaabin oo isku dayaya in ay qiyaasaan muunadda. Waxaa jira dhowr sababood oo tan:

  1. Qarsoodinimada marka hore: Tan ugu muhiimsan, fikradda astaamaha ayaa noo ogolaaneysa inaan ku keydinno xusuusta kaliya qaababka aan soo saarno. Tani waxay xaqiijinaysaa inaan u kaydinay muunada hal ujeedo oo aan waligeen ku qorin dadaalkeena. Tani waxay si gaar ah muhiim ugu tahay xogta isbedbeddelaysa, maadaama adeeggu uu ilaalinayo xaalad kala soocidda ka hor inta aan la bixin saadaalin.
  2. Xusuusta: Muunada qaar waxa ay noqon karaan kumanaan xaraf. Kaydinta xogtan oo kale iyo u gudbinta qaybo ka mid ah nidaamka si aan loo baahnayn waxay u cuntaa bytes badan oo dheeraad ah. Labada arrimood ayaa isku dari kara waqti ka dib, marka la eego in ay jiraan ilo xogeed oo badan oo kumanaan tiirar ah.
  3. Isku-darka astaanta: Astaamaha si cad waxay u taagan yihiin natiijooyinka baadhis kasta iyada oo loo marayo qaybo astaamo ah, taas oo u oggolaanaysa nidaamku inuu isku daro natiijooyinka baadhitaanadii hore ee isla xogta isla hab ku habboon. Tani waxay faa'iido u yeelan kartaa isu geynta natiijooyinka iskaanka ee ilaha xogta ee orodyo badan.

Sifooyinka ayaa markaa loo diraa adeega saadaasha halkaas oo aan isticmaalno kala soocida qaanuunka ku salaysan iyo barashada mashiinka si loo saadaaliyo calaamadaha xogta ee tiir kasta. Adeeggu wuxuu ku tiirsan yahay kala-saarayaasha qaanuunka iyo barashada mashiinka wuxuuna doortaa saadaasha ugu wanaagsan ee laga bixiyo shay kasta oo saadaalin ah.

Kala soocida qaanuunka waa heuristics gacanta, waxay isticmaalaan xisaabinta iyo iskudhafka si ay caadi uga dhigaan shay ilaa 0 ilaa 100. Marka dhibcaha bilowga ah ee noocaas ah loo sameeyo nooc kasta oo xog ah iyo magaca tiirka ee la xidhiidha xogtaas, kuma jiraan "mamnuucista" Liisaska" , Kala soocida qaanuunka ayaa dooranaya dhibcaha caadiga ah ee ugu sarreeya, dhammaan noocyada xogta.

Kakanaanta kala-soocidda awgeed, ku-tiirsanaanta kaliya ee heuristics-gacmeedka waxay keenaysaa saxnaanta kala-soocidda hoose, gaar ahaan xogta aan habaysan. Sababtan awgeed, waxaanu samaynay nidaamka barashada mashiinka si uu ula shaqeeyo kala soocida xogta aan habaysanayn sida macluumaadka isticmaalaha iyo ciwaanka. Barashada mishiinku waxa ay suurtagelisay in la bilaabo in laga guuro heuristics-ga gacanta oo lagu dabaqo calaamado xog dheeraad ah (tusaale magacyada tiirarka, caddaynta xogta), si weyn u hagaajinaysa saxnaanta ogaanshaha. Waxaan si qoto dheer u dhex geli doonaa qaab dhismeedka barashada mashiinka mar dambe.

Adeegga saadaasha waxa uu kaydiyaa natiijooyinka tiir kasta oo ay la socoto xogta badan ee ku saabsan wakhtiga iyo xaaladda skaanka. Macaamiisha kasta iyo hababka hoose ee ku xiran xogtan waxay ka akhriyi karaan xogta maalinlaha ah ee la daabacay. Qalabkan ayaa isu geynaya dhammaan natiijooyinka shaqooyinkan iskaanka ah, ama API-yada xogta-waqtiga-dhabta ah. Saadaasha la daabacay ayaa ah aasaaska fulinta tooska ah ee siyaasadaha gaarka ah iyo amniga.

Ugu dambeyntii, ka dib markii adeegga saadaalintu uu qoro dhammaan xogta oo dhammaan saadaasha la kaydiyo, API Data Catalog wuxuu soo celin karaa dhammaan saadaasha nooca xogta ee kheyraadka wakhtiga dhabta ah. Maalin kasta nidaamku wuxuu daabacaa xog-ururin ka kooban dhammaan saadaasha ugu dambeysay ee hanti kasta.

Xog aan isbeddelayn

Iyadoo habka kore loogu talagalay hantida joogtada ah, taraafikada aan joogtada ahayn ayaa sidoo kale loo tixgeliyaa qayb ka mid ah xogta ururka waxayna noqon kartaa muhiim. Sababtan awgeed, nidaamku wuxuu bixiyaa API online ah si loo soo saaro saadaasha kala soocida waqtiga-dhabta ah ee taraafikada kala go'a. Nidaamka saadaasha waqtiga-dhabta ah waxaa si weyn loogu isticmaalaa kala soocida taraafikada dibadda, taraafikada gudaha ee moodooyinka barashada mashiinka iyo xogta xayeysiiyaha.

Halkan API waxay qaadataa laba doodood oo waaweyn: furaha kooxaynta iyo xogta cayriin ee la saadaalinayo. Adeeggu waxa uu fuliyaa soo saarista shay la mid ah sida kor lagu sharaxay oo walxaha ay isugu geeyaan fure isku mid ah. Tilmaamahan waxaa sidoo kale lagu taageeraa kaydinta joogtada ah ee soo kabashada guuldarada. Fure kasta oo kooxeed, adeeggu waxa uu hubinayaa in uu arkay muunado ku filan ka hor inta aanu wicin adeegga saadaasha, iyada oo la raacayo habka kor lagu sharaxay.

Kala-xulashada

Si loo baadho kaydinta qaar, waxaanu isticmaalnaa maktabado iyo farsamooyin si aanu u wanaajino wax akhriska kaydinta kulul [2] oo aanu u hubinno in aanay jirin carqaladayn isticmaalayaasha kale ee gelaya kaydinta la mid ah.

Miisaska aadka u waaweyn (50+ petabytes), inkastoo dhammaan hagaajinta iyo waxtarka xusuusta, nidaamku wuxuu u shaqeeyaa inuu sawiro oo xisaabiyo wax kasta ka hor inta uusan dhammaan xusuusta. Ka dib oo dhan, skaanka waxaa lagu xisaabiyaa gebi ahaan xusuusta oo aan la kaydin inta lagu jiro sawirka. Haddii miisaska waaweyni ay ka kooban yihiin kumanaan tiir oo leh xogo aan habaysanayn, shaqadu waxay ku fashilmi kartaa kaydka xusuusta oo aan ku filnayn marka la samaynayo saadaasha miiska oo dhan. Tani waxay keeni doontaa hoos u dhaca caymiska. Si taas loola dagaallamo, waxaanu hagaajinay nidaamka si aanu u isticmaalno xawaaraha iskaanka wakiil ahaan sida uu nidaamku u maamulo culayska shaqada ee hadda jira. Waxaan u isticmaalnaa xawaaraha qaab saadaalin ah si aan u aragno dhibaatooyinka xusuusta oo aan si saadaalin ah u xisaabino khariidadda sifada. Isla mar ahaantaana, waxaan isticmaalnaa xog ka yar intii caadiga ahayd.

Calaamadaha xogta

Nidaamka kala soocida ayaa kaliya u wanaagsan sida calaamadaha xogta. Halkan waxaan ku eegi doonaa dhammaan calaamadaha uu isticmaalo nidaamka kala soocida.

  • Waxyaabaha Ku Salaysan: Dabcan, calaamada koowaad iyo tan ugu muhiimsan waa nuxur. Muunad-samaynta Bernoulli waxa lagu sameeyaa hanti kasta oo xog ah oo aan iska-baarno oo aan soo saarno sifooyin ku salaysan xogta ku jirta. Calaamado badan ayaa ka yimid nuxurka. Tiro kasta oo shay sabayn ah waa suurtogal, taas oo ka dhigan xisaabinta inta jeer ee nooc muunad gaar ah la arkay. Tusaale ahaan, waxaa laga yaabaa inaan haysano calaamado tirada iimaylada lagu arkay muunad, ama calaamado inta emojis lagu arkay muunad. Xisaabinta astaamahan ayaa noqon kara mid caadi ah waxaana la isugu geyn karaa sawirro kala duwan.
  • Xaqiijinta xogta: Calaamad muhiim ah oo ku caawin karta marka nuxurku ka beddelo miiska waalidka. Tusaalaha caadiga ah waa xogta la xaday. Marka xogta ku jirta miiska ilmaha la xado, waxay inta badan ka timaadaa miiska waalidka, halkaas oo ay ku sii jirto si cad. Xogta nasabku waxay caawisaa kala saarista noocyada xogta qaarkood marka aan si cad loo akhriyin ama laga soo rogin miiska sare.
  • Faahfaahin: Calaamad kale oo tayo sare leh oo ka caawisa aqoonsiga xogta aan habaysan. Dhab ahaantii, tafatirka iyo xogta caddayntu waxay ka wada shaqayn karaan faafinta sifooyinka hantida xogta kala duwan. Faallooyinku waxay caawiyaan in la aqoonsado isha xogta aan habaysanayn, halka xogta abtirsiinta ay ka caawin karto la socodka socodka xogtaas inta lagu jiro kaydinta.
  • Duritaan xogtu waa farsamo halka jilayaasha gaarka ah, aan la akhriyi karin si ula kac ah loogu soo bandhigo ilaha la yaqaan ee noocyada xogta la yaqaan. Dabadeed, mar kasta oo aan iska sawirno waxa ku jira isku xigxiga dabeecadda aan la akhriyin, waxaan qiyaasi karnaa in nuxurku ka yimid nooca xogta la yaqaan. Tani waa calaamad kale oo xog tayo leh oo la mid ah tafaasiisha. Marka laga reebo in ogaanshaha ku salaysan nuxurka ay caawiso ogaanshaha xogta la galiyay.

Cabbirrada

Qayb muhiim ah waa hab adag oo lagu cabbiro cabbirada. Halbeegyada ugu muhiimsan ee soo-celinta hagaajinta kala soocida waa saxnaanta iyo dib-u-celinta calaamad kasta, iyadoo dhibcaha F2 ay yihiin kuwa ugu muhiimsan.

Si loo xisaabiyo cabbirradan, hab madaxbannaan oo lagu calaamadiyo hantida xogta ayaa loo baahan yahay kaas oo ka madaxbannaan nidaamka laftiisa, laakiin waxaa loo isticmaali karaa isbarbardhigga tooska ah. Hoos waxaan ku sharaxaynaa sida aan uga soo ururinno runta Facebook oo aan u isticmaalno si aan u tababarno nidaamkayaga kala soocidda.

Ururinta xog lagu kalsoonaan karo

Waxaan uruurineynaa xog lagu kalsoonaan karo oo ka timid ilo kasta oo hoos ku qoran oo aan galnay shaxdeeda. Jadwal kastaa wuxuu mas'uul ka yahay isu geynta qiyamkii ugu dambeeyay ee laga soo xigtay ishaas gaarka ah. Ilaha kastaa wuxuu leeyahay hubinta tayada xogta si loo hubiyo in qiyamka la arkay ilo kasta ay yihiin kuwo tayo sare leh oo ay ku jiraan sumadaha nooca xogta ugu dambeeyay.

  • Habaynta goynta goynta: Qaybo ka mid ah miisaska rugta rugta ayaa ka buuxa xog nooc gaar ah leh. Isticmaalka iyo faafinta xogtani waxay u adeegtaa sidii ilo run ah oo la isku halayn karo.
  • Sumadeynta gacanta: Horumariyeyaasha ilaalinaya nidaamka iyo sidoo kale calaamadeeyayaasha dibadda ayaa loo tababaray inay calaamadiyaan tiirarka. Tani waxay guud ahaan si fiican ugu shaqeysaa dhammaan noocyada xogta ee bakhaarka, waxayna noqon kartaa isha aasaasiga ah ee runta xogta aan habaysan qaarkood, sida xogta fariinta ama macluumaadka isticmaalaha.
  • Tiirarka ka soo baxa miisaska waalidka waxa lagu calaamadayn karaa ama lagu sharxi karaa inay ka kooban yihiin xog gaar ah, waxaanan kala socon karnaa xogtaas miisaska carruurta.
  • Keenista dunta fulinta: dunta fulinta ee Facebook waxay wataan noocyo gaar ah oo xog ah. Isticmaalka iskaankayaga qaab dhismeed adeeg ahaan, waxaan muunad karnaa durdurrada leh noocyada xogta oo aan u dirno nidaamka. Nidaamku wuxuu ballan qaadayaa inaanu kaydin xogtan.
  • Jadwalka Tusaalaha: Miisaska rugta rugta ee waaweyn, kuwaas oo la og yahay inay ka kooban yihiin dhammaan xogta korpus, sidoo kale waxaa loo isticmaali karaa xogta tababarka oo loo dhex maraayo scanner adeeg ahaan. Tani waxay aad ugu fiican tahay miisaska leh noocyo kala duwan oo xog ah, sidaa darteed shaybaarka tiirka si aan kala sooc lahayn waxay u dhigantaa muunad dhammaan noocyada xogtaas.
  • Xogta synthetic: Waxaan xitaa isticmaali karnaa maktabado soo saara xogta duullimaadka. Tani waxay si fiican ugu shaqeysaa fudud, noocyada xogta dadweynaha sida ciwaanka ama GPS.
  • Maamulayaasha Xogta: Barnaamijyada khaaska ah waxay caadi ahaan adeegsadaan maamulayaasha xogta si ay gacanta ugu dhigaan siyaasadaha qaybo xog ah. Tani waxay u adeegtaa sida isha runta ah ee saxda ah.

Waxaan isku darnaa il kasta oo weyn oo run ah oo aan ku darsano hal corpus iyo dhammaan xogtaas. Caqabadda ugu weyn ee ansaxnimada leh waa hubinta inay wakiil u tahay kaydka xogta. Haddii kale, matoorada kala soocida ayaa laga yaabaa inay xad dhaaf ahaadaan. Si taas loola dagaallamo, dhammaan ilaha kor ku xusan waxaa loo isticmaalaa si loo hubiyo dheelitirka marka la tababarayo moodooyinka ama xisaabinta cabbirada. Intaa waxaa dheer, calaamadeeyayaasha bini'aadamku waxay si isku mid ah u muunadeeyaan tiirar kala duwan oo ku jira kaydka waxayna u calaamadiyaan xogta si waafaqsan si ururinta runta dhulka ay u ahaato mid aan eex lahayn.

Isdhexgalka Joogtada ah

Si loo hubiyo soo-celinta degdega ah iyo hagaajinta, waxaa muhiim ah in had iyo jeer la cabbiro waxqabadka nidaamka wakhtiga dhabta ah. Waxaan cabbiri karnaa horumar kasta oo kala soocida marka loo eego nidaamka maanta, si aan si xeeladaysan u hagi karno hagaajinta mustaqbalka ee ku saleysan xogta. Halkan waxaan ku eegaynaa sida nidaamku u dhamaystiro wareegga jawaab celinta ee ay bixiso xog sax ah.

Marka nidaamka jadwalku uu la kulmo hanti leh calaamad ka timid ilo lagu kalsoon yahay, waxaan jadwaleynaa laba hawlood. Midka ugu horreeya wuxuu isticmaalaa iskaanka wax-soo-saarka, sidaas awgeed awooddeenna wax-soo-saarka. Hawsha labaad waxay isticmaashaa iskaanka-dhis ee ugu dambeeyay oo leh sifooyinkii ugu dambeeyay. Hawl kastaa waxay wax soo saarkeeda ku qortaa miiskeeda, iyada oo calaamadaynaysa noocyada ay la socoto natiijooyinka kala soocidda.

Tani waa sida aan u barbar dhigno natiijooyinka kala soocida musharaxa la sii daayo iyo qaabka wax soo saarka ee wakhtiga dhabta ah.

Iyadoo xog-ururinta ay isbarbar-dhigaan sifooyinka RC iyo PROD, kala duwanaansho badan oo ka mid ah matoorka kala-saarista ML ee adeegga saadaasha ayaa la qoray. Qaabkii ugu dambeeyay ee la dhisay mashiinka wax lagu barto, qaabka hadda wax soo saarka, iyo nooc kasta oo tijaabo ah. Habka isku midka ah wuxuu noo ogolaanayaa inaan "jeexno" noocyada kala duwan ee moodeelka (agnostic si loo kala saaro xeerkeena) oo aan barbar dhigno cabbirada waqtiga dhabta ah. Tani waxay fududaynaysaa in la go'aamiyo marka tijaabada ML ay diyaar u tahay inay gasho wax soo saarka.

Habeen kasta, astaamaha RC ee la xisaabiyay maalintaas waxaa loo diraa dhuumaha tababarka ML, halkaas oo moodeelka lagu tababaro sifooyinka RC ee ugu dambeeyay oo uu ku qiimeeyo waxqabadkiisa marka loo eego xogta dhabta ah ee dhulka.

Subax kasta, moodeelku wuxuu dhammeeyaa tababarka waxaana si toos ah loo daabacaa qaab tijaabo ah. Waxa si toos ah loogu daraa liiska tijaabada

Natiijooyinka qaar

In ka badan 100 nooc oo xog ah ayaa lagu calaamadeeyay saxnaan sare. Noocyada si wanaagsan loo habeeyey sida iimaylada iyo nambarada teleefanada waxaa lagu sifeeyay f2 dhibco ka weyn 0,95. Noocyada xogta bilaashka ah sida macluumaadka uu isticmaalo isticmaaluhu iyo magaca ayaa sidoo kale si fiican u shaqeeya, oo leh F2 buundooyinka ka weyn 0,85.

Tiro badan oo shakhsiyadeed oo xog joogto ah iyo kuwo aan isbeddelayn ayaa maalin kasta lagu kala saaraa dhammaan meelaha kaydka ah. In ka badan 500 terabyte ayaa maalin kasta lagu sawiraa in ka badan 10 bakhaar xogta ah. Inta badan bakhaarradan waxay leeyihiin in ka badan 98% caymis.

Muddo ka dib, kala-saarku waxa uu noqday mid aad waxtar u leh, iyada oo shaqooyinka kala-soocidda ee qulqulka khadka tooska ah ee joogtada ah ay qaadanayaan celcelis ahaan 35 ilbiriqsi laga bilaabo baarista hantida ilaa xisaabinta saadaasha tiir kasta.

Kala soocida xogta la qiyaasi karo ee amniga iyo gaarnimada
Bariis 2. Jaantuska qeexaya socodka isdhexgalka joogtada ah si loo fahmo sida walxaha RC loo soo saaro loona diro moodeelka.

Kala soocida xogta la qiyaasi karo ee amniga iyo gaarnimada
Jaantuska 3. Jaantuska heerka sare ee qaybta barashada mashiinka.

Qaybta nidaamka barashada mashiinka

Qaybtii hore, waxaanu si qoto dheer u dhex galnay qaab dhismeedka nidaamka guud, muujinta miisaanka, hagaajinta, iyo socodka xogta khadka iyo khadka tooska ah. Qaybtan, waxaan ku eegi doonaa adeega saadaasha waxaanan ku tilmaami doonaa nidaamka barashada mashiinka ee awooda adeega saadaasha.

In ka badan 100 nooc oo xog ah iyo qaar aan habaysanayn sida xogta fariinta iyo macluumaadka isticmaalaha, iyadoo la isticmaalayo kaligiis heuristics manual natiijooyinka saxnaanta kala soocida hoose, gaar ahaan xogta aan habaysan. Sababtan awgeed, waxaanu sidoo kale samaynay nidaamka barashada mashiinka si aanu ula tacaalno kakanaanta xogta aan qaabaysan. Isticmaalka barashada mashiinka waxay kuu ogolaaneysaa inaad bilowdo inaad ka guurto heuristics gacanta oo aad la shaqeyso sifooyin iyo calaamado xog dheeraad ah (tusaale, magacyada tiirarka, asalka xogta) si aad u wanaajiso saxnaanta.

Qaabka la hirgaliyay waxa uu daraaseeyaa matalaada vector [3] oo ka saraysa walxaha cufan iyo kuwa yaryar si gooni gooni ah. Kuwan ayaa markaa la isku daraa si ay u sameeyaan vector, kaas oo mara taxane taxane ah oo caadi ah [4] iyo tallaabooyin aan toos ahayn si loo soo saaro natiijada kama dambaysta ah. Natiijada kama dambaysta ahi waa dhibic sabbaynaysa inta u dhaxaysa [0-1] calaamad kasta, taas oo muujinaysa suurtogalnimada in tusaalaha uu leeyahay nooca dareenkaas. Isticmaalka PyTorch ee moodeelka ayaa noo ogolaatay inaan si dhaqsiyo leh u dhaqaaqno, taasoo u oggolaanaysa horumariyeyaasha ka baxsan kooxda inay si degdeg ah u sameeyaan oo ay tijaabiyaan isbeddellada.

Marka la nashqadeynayo qaab-dhismeedka, waxa muhiim ahayd in la qaabeeyo walxaha yaryar (tusaale qoraal) iyo cufan (tusaale tirooyin) walxo si gaar ah u kala duwanaanshahooda dartiis. Qaab dhismeedka kama dambaysta ah, waxa kale oo ay ahayd muhiim in la sameeyo xaaqid xad-dhaaf ah si loo helo qiimaha ugu habboon ee heerka waxbarashada, cabbirka dufcadda, iyo cabbirrada kale ee sare. Doorashada optimizer sidoo kale waxay ahayd hyperparameter muhiim ah. Waxaan ogaanay in optimizer caan ah Adaminta badan waxay keentaa in si xad dhaaf ah loo xidho, halka model uu leeyahay SGD xasiloon badan. Waxaa jiray nuances dheeraad ah oo ay ahayd inaan si toos ah ugu darno moodalka. Tusaale ahaan, sharciyo ma guuraan ah oo hubiyay in moodalku sameeyo saadaalin go'aamineed marka astaantu leedahay qiimo gaar ah. Xeerarkan taagan waxaa qeexay macaamiisheena. Waxaan ogaanay in iyaga si toos ah loogu daro moodeelka ay keentay qaab-dhismeed aad isku kalsoon oo adag, taas oo ka soo horjeeda hirgelinta tillaabada hab-socodka ka dib si loo maareeyo kiisaska cirifka gaarka ah. Sidoo kale ogow in sharciyadan ay yihiin kuwo naafo ah inta lagu jiro tababarka si aysan u faragelin habka tababarka hoos u dhaca.

Dhibaatooyinka

Mid ka mid ah caqabadaha jiray ayaa ahaa ururinta xog tayo sare leh oo la isku halayn karo. Qaabku wuxuu u baahan yahay kalsooni fasal kasta si uu u barto xiriirka ka dhexeeya walxaha iyo calaamadaha. Qaybtii hore, waxaanu kaga hadalnay hababka xog ururinta ee cabbiraadda nidaamka iyo tababarka moodeelka labadaba. Falanqaynta ayaa muujisay in fasalada xogta sida kaararka deynta iyo lambarada xisaabaadka bangigu aysan ku badneyn bakhaarkeena. Tani waxay adkeynaysaa in la ururiyo tiro badan oo xog lagu kalsoonaan karo si loo tababaro moodooyinka. Si arrintan wax looga qabto, waxaanu samaynay habab lagu helo xogta dhabta ah ee asalka ah ee fasalladan. Waxaan u abuurnaa xogta noocaas ah noocyada xasaasiga ah oo ay ku jiraan SSN, lambarada kaararka deynta ΠΈ IBAN-lambarrada kuwaas oo moodelku aanu hore u sii saadaalin karin. Habkani wuxuu ogolaanayaa noocyada xogta xasaasiga ah in la farsameeyo iyada oo aan la helin khataraha gaarka ah ee la xidhiidha qarinta xogta dhabta ah ee xasaasiga ah.

Marka laga soo tago arrimaha runta salka ku haya, waxaa jira arrimo dhismeed oo furan oo aan ka shaqeyneyno, sida beddelo go'doominta ΠΈ joogsi hore. Beddelka go'doominta waa muhiim si loo hubiyo in marka isbeddello kala duwan lagu sameeyo qaybaha kala duwan ee shabakadda, saameyntu ay go'doomisay fasallo gaar ah oo aan saameyn ballaaran ku yeelanayn guud ahaan waxqabadka saadaasha. Hagaajinta shuruudaha joojinta hore ayaa sidoo kale ah mid muhiim ah si aan u joojin karno habka tababarka meel xasiloon dhammaan fasallada, halkii ay ka ahaan lahayd meel ay fasallada qaarkood tabobareeyaan kuwa kalena aysan dhicin.

Muhiimadda muuqaalka

Marka sifo cusub lagu soo bandhigo qaabka, waxaan rabnaa inaan ogaano saameynta guud ee ay ku leedahay qaabka. Waxaan sidoo kale rabnaa inaan hubinno in saadaasha ay tahay mid bini'aadmigu tarjumi karo si aan si sax ah u fahmi karno astaamaha loo isticmaalo nooc kasta oo xog ah. Ujeedadaas awgeed ayaanu u horumarinay una soo bandhignay by fasalka muhiimadda sifooyinka ee qaabka PyTorch. Ogsoonow in tani ay ka duwan tahay muhiimada muuqaalka guud, taas oo inta badan la taageero, sababtoo ah ma noo sheegayso sifooyinka muhiimka u ah fasal gaar ah. Waxaan ku cabbirnaa muhiimada shay anagoo xisaabinayna kororka qaladka saadaasha kadib dib u habeynta shayga. Astaantu waa "muhiim" marka qiyamka la beddelo waxay kordhisaa khaladka moodeelka sababtoo ah xaaladdan moodeelku wuxuu ku tiirsanaa sifada si uu u saadaaliyo. Astaantu waa "muhiim ma aha" marka la isku shaandheynayo qiyamkeeda waxay ka tagtaa qaladka moodeelka oo aan isbeddelin, sababtoo ah kiiskan qaabku wuu iska indhatiray [5].

Muhiimadda sifada fasal kasta waxay noo ogolaanaysaa inaan samayno qaabka la tarjumi karo si aan u aragno waxa tusaaluhu eegayo marka la saadaalinayo calaamad. Tusaale ahaan, markaan gorfeyno ADDR, markaa waxaanu dammaanad qaadaynaa in calaamada ciwaanka la xidhiidha, sida AddressLinesCount, waxa uu aad ugu sarreeyaa shaxda muhiimadda sifada fasal kasta si dareenkeena aadamuhu uu si fiican ula qabsado waxa tusaaluhu bartay.

qiimaynta

Waa muhiim in la qeexo hal mitir oo lagu guuleysto. Waanu dooranay F2 - dheelitirka u dhexeeya dib-u-celinta iyo saxnaanta (xusuusinta eexda ayaa xoogaa ka weyn). Dib u xasuusinta ayaa aad uga muhimsan kiiska isticmaalka sirta ah marka loo eego saxnaanta sababtoo ah waxaa muhiim u ah kooxda inaysan seegin wax xog xasaasi ah (iyadoo la hubinayo saxnaanta macquulka ah). Qiimaynta waxqabadka dhabta ah ee F2 ee qaabkayaga ayaa ka baxsan xadka warqaddan. Si kastaba ha ahaatee, haddii si taxadar leh loo hagaajiyo waxaan ku gaari karnaa heerar sare (0,9+) F2 ee fasallada xasaasiga ah ee ugu muhiimsan.

Shaqada la xidhiidha

Waxaa jira algorithms badan oo si toos ah u kala soocida dukumentiyada aan habaysan iyadoo la isticmaalayo habab kala duwan sida is waafajinta hannaankii, raadinta dukumeenti la mid ah iyo hababka kala duwan ee barashada mashiinka (Bayesian, geedaha go'aanka, k-dariska ugu dhow iyo kuwa kale oo badan) [6]. Mid kasta oo kuwaas ka mid ah waxaa loo isticmaali karaa qayb ka mid ah kala soocidda. Si kastaba ha ahaatee, dhibaatadu waa scalability. Habka kala soocida ee maqaalkani waa mid u janjeera dhinaca dabacsanaanta iyo waxqabadka. Tani waxay noo ogolaanaysaa inaan taageerno fasallo cusub mustaqbalka oo aan hoos u dhigno daahida.

Waxaa kaloo jira shaqo badan oo ku saabsan faraha xogta. Tusaale ahaan, qorayaasha ku jira [7] waxay ku qeexeen xalka diiradda saaraya dhibaatada qabashada xogta xasaasiga ah. Malaha hoose ayaa ah in xogta laga qaadi karo faraha si ay ula mid noqoto xog xasaasi ah oo la yaqaan. Qorayaasha ku jira [8] waxay qeexayaan dhibaatada la midka ah ee daadinta qarsoodiga, laakiin xalkoodu wuxuu ku salaysan yahay qaab dhismeedka Android gaar ah waxaana la kala saaraa kaliya haddii ficilada isticmaaluhu ay keenaan wadaagista macluumaadka shakhsi ahaaneed ama haddii codsiga hoose uu daadiyo xogta isticmaalaha. Xaaladda halkan xoogaa way ka duwan tahay sababtoo ah xogta isticmaalaha sidoo kale waxay noqon kartaa mid aad u qaabaysan. Sidaa darteed, waxaan u baahanahay farsamo ka adag tii faraha.

Ugu dambeyntii, si loola tacaalo yaraanta xogta ee noocyada xogta xasaasiga ah qaarkood, waxaan soo bandhignay xogta synthetic. Waxaa jira suugaan badan oo ku saabsan kordhinta xogta, tusaale ahaan, qorayaasha ku jira [9] waxay sahamiyeen doorka cirbadeynta buuqa inta lagu jiro tababarka waxayna arkeen natiijooyin wanaagsan oo ku saabsan barashada la kormeero. Habkayaga sirnimadu waa ka duwan tahay sababtoo ah soo bandhigida xogta buuqa badan waxay noqon kartaa mid aan faa'iido lahayn, taas bedelkeedana waxaan diirada saarnaa xogta tayada sare leh.

gunaanad

Warqadan, waxaan ku soo bandhignay nidaam kala saari kara qayb ka mid ah xogta. Tani waxay noo ogolaanaysaa inaan abuurno nidaamyo lagu xoojinayo siyaasadaha gaarka ah iyo amniga. Waxaan tusnay in kaabayaasha la miisaami karo, isdhexgalka joogtada ah, barashada mashiinka iyo hubinta tayada sare leh ay door muhiim ah ka ciyaaraan guusha qaar badan oo ka mid ah dadaalladayada sirta ah.

Waxaa jira tilmaamo badan oo loogu talagalay shaqada mustaqbalka. Tan waxa ka mid noqon kara siinta taageerada xogta (faylalka), kala soocida nooca xogta oo keliya, laakiin sidoo kale heerka dareenka, iyo adeegsiga barashada is-maamulka inta lagu jiro tababarka iyadoo la soo saarayo tusaalooyin saxan oo sax ah. Taas oo markaa ka caawin doonta moodelku inuu yareeyo khasaaraha ugu badan. Shaqada mustaqbalka waxay sidoo kale diiradda saari kartaa socodka shaqada baaritaanka, halkaasoo aan ka gudubno ogaanshaha oo aan bixinno falanqaynta sababta asaasiga ah ee xadgudubyada kala duwan ee sirta ah. Tani waxay kaa caawin doontaa kiisaska sida falanqaynta xasaasiga ah (tusaale ahaan haddii dareenka gaarka ah ee nooca xogta uu sarreeyo (tusaale isticmaale IP) ama hooseeyo (tusaale Facebook gudaha IP)).

Sheeko-qoraalka

  1. David Ben-David, Tamar Domany, iyo Abigail Tarem. Kala soocidda xogta ganacsiga iyadoo la adeegsanayo tignoolajiyada shabakadda semantic. Gudaha Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, iyo Birte Glimm, tafatirayaasha, Shabakadda Semantic - ISWC 2010, bogagga 66-81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, iyo Sanjeev Kumar. f4: Nidaamka kaydinta diiran ee BLOB ee Facebook. Gudaha 11-aad USENIX Symposium ee Naqshadeynta Nidaamyada Hawlgelinta iyo Hirgelinta (OSDI 14), bogagga 383-398, Broomfield, CO, Oktoobar 2014. Ururka USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, iyo Jeff Dean. Magacyada erayada iyo odhaahyada la qaybiyay iyo sida ay u kooban yihiin. Gudaha C.J.C. Burges, L. Bottou, M. Welling, Z. Ghahramani, iyo K.Q. Weinberger, tafatirayaasha, Horumarrada Nidaamyada Habaynta Macluumaadka Neural 26, bogagga 3111-3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe iyo Christian Szegedy. Caadiyan Dufcaddii: Dardar gelinta tababbarka qoto dheer ee shabakadda iyadoo la dhimayo isbeddelka isku-dhafka gudaha. Francis Bach iyo David Blei, tafatirayaasha, Tallaabooyinka Shirweynaha 32aad ee Caalamiga ah ee Barashada Mashiinnada, mugga 37aad ee Tallaabooyinka Cilmi-baarista Barashada Mashiinka, bogagga 448-456, Lille, France, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Kaymaha random Mach. Baro., 45(1):5–32, Oktoobar 2001.
  6. Thair Nu Phyu. Sahanka farsamooyinka kala soocida ee macdanta xogta.
  7. X. Shu, D. Yao, iyo E. Bertino. Qarsoodi-ilaalinta ogaanshaha xogta xasaasiga ah. Ganacsiga IEEE ee ku saabsan Forensics-ka Macluumaadka iyo Amniga, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, iyo Xiaoyang Wang. Appintent: Falanqaynta gudbinta xogta xasaasiga ah ee android si loo ogaado daadinta sirta ah. bogagga 1043-1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, iyo Quoc V. Le. Kordhinta xogta aan la ilaalin

Kala soocida xogta la qiyaasi karo ee amniga iyo gaarnimada
Soo hel tafaasiil ku saabsan sida aad uga heli lahayd xirfad la raadinayo meel eber ah ama Heerka Sare xagga xirfadaha iyo mushaharka adiga oo qaadanaya koorsooyinka khadka ee SkillFactory:

Koorsooyin badan

Source: www.habr.com

Add a comment