Datuen sailkapen eskalagarria segurtasunerako eta pribatutasunerako

Datuen sailkapen eskalagarria segurtasunerako eta pribatutasunerako

Edukian oinarritutako datuen sailkapena arazo irekia da. Datu-galera prebenitzeko (DLP) sistema tradizionalek arazo hau konpontzen dute, dagozkion datuak hatz-markak hartuz eta hatz-markak hartzeko amaierako puntuak kontrolatuz. Facebook-en etengabe aldatzen diren datu-baliabideen kopuru handia kontuan hartuta, ikuspegi hau ez da eskalagarria soilik, baizik eta ez da eraginkorra datuak non dauden zehazteko. Artikulu honek Facebook-en mota semantiko sentikorrak eskalan detektatzeko eta datuak biltegiratzeko eta sarbide-kontrola automatikoki betetzeko eraikitako muturreko sistema batean zentratzen da.

Hemen deskribatzen den ikuspegia gure lehen muturreko pribatutasun-sistema da, arazo hau konpontzen saiatzen dena, datu-seinaleak, ikaskuntza automatikoa eta hatz-markak ohiko teknikak sartuz Facebookeko datu guztiak mapatzeko eta sailkatzeko. Deskribatutako sistema produkzio-ingurunean funtzionatzen da, eta batez besteko F2 puntuazioa 0,9+ekoa lortzen du pribatutasun-klase ezberdinetan hainbat biltegitan datu-baliabide kopuru handiak prozesatzen dituen bitartean. Ikaskuntza automatikoan oinarritutako datuen sailkapen eskalagarriari buruzko Facebook-en ArXiv paperaren itzulpena aurkezten.

Sarrera

Gaur egun, erakundeek datu-kopuru handiak biltzen eta gordetzen dituzte hainbat formatu eta kokapenetan [1], gero datuak leku askotan kontsumitzen dira, batzuetan behin baino gehiagotan kopiatzen edo gordetzen dira, eta, ondorioz, negozio-informazio baliotsua eta sentikorra enpresa-datu askotan sakabanatuta dago. dendak. Erakunde batek legezko edo arauzko baldintza batzuk bete behar dituenean, hala nola, prozedura zibilean araudia betetzea, beharrezkoa bihurtzen da beharrezko datuen kokapenari buruzko datuak biltzea. Pribatutasun-arau batek erakunde batek Gizarte Segurantzako Zenbaki guztiak (SSN) estali behar dituela adierazten duenean informazio pertsonala baimendu gabeko entitateekin partekatzean, lehen urrats naturala erakundearen datu biltegietan SSN guztiak bilatzea da. Egoera horietan, datuen sailkapena kritikoa bihurtzen da [1]. Sailkapen sistemari esker, erakundeek pribatutasun- eta segurtasun-politikak automatikoki bete ditzakete, hala nola, sarbide-kontrol-politikak gaitzea, datuak gordetzea. Facebook-ek datu-seinale anitz, sistema-arkitektura eskalagarria eta ikaskuntza automatikoa erabiltzen dituen sistema bat aurkezten ari da, datu semantiko sentikorrak ezagutzeko.

Datuen aurkikuntza eta sailkapena datuak aurkitzeko eta etiketatzeko prozesua da, beharrezkoa denean informazio garrantzitsua azkar eta eraginkortasunez berreskuratu ahal izateko. Gaur egungo prozesua eskuliburua da eta dagozkion lege edo araudiak aztertzean datza, zer informazio mota sentikortzat hartu behar diren zehaztean eta zeintzuk diren sentsibilitate-maila desberdinak, eta, ondoren, klaseak eta sailkapen-politikak eraikitzen ditu horren arabera [1]. Datu-galeren prebentzioa (DLP) ondoren, hatz-markak datuak hartzen ditu eta beheranzko amaierako puntuak kontrolatzen ditu hatz-markak lortzeko. Datu-petabyte dituen aktibo ugariko biltegi bati aurre egiten dionean, ikuspegi hau ez da eskalatzen.

Gure helburua datuen sailkapen sistema bat eraikitzea da, erabiltzaileen datu sendoak zein iragankorrak eskalatzen dituena, datu mota edo formatuan murrizketa gehigarririk gabe. Helburu ausarta da, eta, jakina, erronkak ekartzen ditu. Datu-erregistro jakin batek milaka karaktere izan ditzake.

Datuen sailkapen eskalagarria segurtasunerako eta pribatutasunerako
1. irudia. Lineako eta lineaz kanpoko aurreikuspen-fluxuak

Hori dela eta, eraginkortasunez irudikatu behar dugu gerora konbinatu eta erraz mugi daitezkeen ezaugarri multzo komun bat erabiliz. Ezaugarri hauek sailkapen zehatza eskaintzeaz gain, malgutasuna eta hedagarritasuna ere eman behar dituzte etorkizunean datu mota berriak erraz gehitzeko eta ezagutzeko. Bigarrenik, lineaz kanpoko mahai handiei aurre egin behar diezu. Datu iraunkorrak petabyte askoko tauletan gorde daitezke. Honek eskaneatzeko abiadura motelagoa izan dezake. Hirugarrenik, datu lurrunkorren SLA sailkapen zorrotzari eutsi behar diogu. Horrek sistema oso eraginkorra, azkarra eta zehatza izatera behartzen du. Azkenik, latentzia baxuko datuen sailkapena eman behar dugu datu lurrunkorrentzat denbora errealeko sailkapena egiteko eta baita Interneten erabilera kasuetarako ere.

Artikulu honek goiko erronkei nola aurre egin genien deskribatzen du eta mota, formatu eta iturri guztietako datu-elementuak ezaugarri multzo komun batean oinarrituta sailkatzen dituen sailkapen sistema azkar eta eskalagarria aurkezten du. Sistemaren arkitektura zabaldu eta ikaskuntza automatikoko eredu pertsonalizatu bat sortu genuen lineaz kanpoko eta lineako datuak azkar sailkatzeko. Dokumentu hau honela antolatuta dago: 2. atalean sistemaren diseinu orokorra aurkezten da. 3. atalean ikasketa automatikoko sistema baten atalak aztertzen dira. 4. eta 5. atalek erlazionatutako lana nabarmentzen dute eta etorkizuneko lan-ildoak zehazten dituzte.

arkitektura

Sareko datu iraunkorren eta Facebook-en eskalaren erronkei aurre egiteko, sailkapen-sistemak bi korronte bereizi ditu, zehatz-mehatz aztertuko ditugunak.

Datu Iraunkorrak

Hasieran, sistemak Facebooken informazio-aktibo ugari ezagutu behar ditu. Biltegi bakoitzerako, oinarrizko informazio batzuk biltzen dira, hala nola datu horiek dituen datu-zentroa, datu horiek dituen sistema eta datu-biltegi zehatzean kokatutako aktiboak. Honek metadatuen katalogo bat sortzen du, sistemari datuak modu eraginkorrean berreskuratzeko aukera ematen diona beste ingeniari batzuek erabiltzen dituzten bezero eta baliabideak gainkargatu gabe.

Metadatuen katalogo honek eskaneatutako aktibo guztien iturri autoritarioa eskaintzen du eta hainbat aktiboren egoeraren jarraipena egiteko aukera ematen du. Informazio hori erabiliz, programazio-lehentasuna sistematik jasotako datuetan eta barneko informazioan oinarrituta ezartzen da, hala nola, aktiboa azken aldiz eskaneatu zen denbora eta sortu zen ordua, baita aktibo horren iraganeko memoria eta CPU eskakizunak ere aurretik eskaneatua izan da. Ondoren, datu-baliabide bakoitzeko (baliabideak eskuragarri dauden heinean), lan bat deitzen da baliabidea benetan eskaneatzeko.

Lan bakoitza aktibo bakoitzerako eskuragarri dauden azken datuekin Bernoulli laginketa egiten duen fitxategi bitar konpilatu bat da. Aktiboa zutabe indibidualetan banatzen da, non zutabe bakoitzaren sailkapenaren emaitza modu independentean prozesatzen den. Gainera, sistemak zutabeen barruan dauden datu aseak bilatzen ditu. JSON, matrizeak, kodetutako egiturak, URLak, 64 oinarri serializatutako datuak eta gehiago eskaneatzen dira. Honek eskaneatzeko exekuzio denbora nabarmen handitu dezake, taula bakar batek habiaraturiko milaka zutabe izan ditzakeelako blob batean json.

Datu-elementuan hautatzen den errenkada bakoitzeko, sailkapen-sistemak float eta testu-objektuak ateratzen ditu edukitik eta objektu bakoitza hartu den zutabarekin lotzen du. Ezaugarriak erauzteko urratsaren irteera datu-aktiboetan aurkitutako zutabe bakoitzeko ezaugarri guztien mapa da.

Zeintzuk dira seinaleak?

Atributuen kontzeptua funtsezkoa da. Float eta testu ezaugarrien ordez, datu-baliabide bakoitzetik zuzenean ateratzen diren kate gordinak pasa ditzakegu. Horrez gain, ikaskuntza automatikoko ereduak zuzenean lagin daitezke lagin bakoitzean, lagina gutxi gorabehera soilik saiatzen diren ehunka ezaugarri kalkulu beharrean. Hainbat arrazoi daude horretarako:

  1. Pribatutasuna lehenik: garrantzitsuena, ezaugarrien kontzeptuak berreskuratzen ditugun ereduak soilik gordetzeko aukera ematen digu memorian. Horrek bermatzen du laginak helburu bakar baterako gordetzen ditugula eta inoiz ez ditugula gure ahaleginen bidez erregistratzen. Hau bereziki garrantzitsua da datu lurrunkorretarako, zerbitzuak sailkapen-egoera batzuk mantendu behar baititu aurreikuspen bat eman aurretik.
  2. Memoria: lagin batzuek milaka karaktere izan ditzakete. Datu horiek gordetzeak eta sistemaren zatietara transmititzeak alferrik byte gehigarri asko kontsumitzen ditu. Bi faktoreak denboran zehar konbina daitezke, milaka zutabe dituzten datu-baliabide asko daudela kontuan hartuta.
  3. Ezaugarrien agregazioa: Ezaugarriek eskaneatu bakoitzaren emaitzak argi adierazten dituzte ezaugarri multzo baten bidez, sistemak datu-baliabide bereko aurreko analisien emaitzak modu erosoan konbinatzeko aukera emanez. Baliagarria izan daiteke datu-baliabide bakarreko eskaneaketa emaitzak exekuzio anitzetan batzeko.

Ondoren, funtzioak iragarpen-zerbitzu batera bidaltzen dira, non arauetan oinarritutako sailkapena eta ikaskuntza automatikoa erabiltzen ditugun zutabe bakoitzaren datu-etiketak aurreikusteko. Zerbitzua arau sailkatzaileetan eta ikaskuntza automatikoan oinarritzen da eta iragarpen objektu bakoitzetik emandako iragarpen onena hautatzen du.

Arau sailkatzaileak eskuzko heuristikoak dira, kalkuluak eta koefizienteak erabiltzen dituzte objektu bat 0tik 100era bitarteko tartean normalizatzeko. Behin datu-mota eta datu horiekin lotutako zutabe-izen bakoitzerako hasierako puntuazio hori sortzen denean, ez da inolako debekuetan sartzen. zerrendak.” ,Arau sailkatzaileak puntuazio normalizatu handiena hautatzen du datu mota guztien artean.

Sailkapenaren konplexutasuna dela eta, eskuzko heuristikan soilik fidatzeak sailkapenaren zehaztasun baxua dakar, batez ere egituratu gabeko datuetan. Hori dela eta, ikaskuntza automatikoko sistema bat garatu dugu egituratu gabeko datuen sailkapenarekin lan egiteko, hala nola erabiltzaileen edukia eta helbidea. Ikaskuntza automatikoak eskuzko heuristikatik aldentzen hastea eta datu-seinale gehigarriak aplikatzea ahalbidetu du (adibidez, zutabeen izenak, datuen jatorria), detektatzeko zehaztasuna nabarmen hobetuz. Gure ikaskuntza automatikoaren arkitekturan sakonduko dugu geroago.

Iragarpen-zerbitzuak zutabe bakoitzaren emaitzak gordetzen ditu eskanearen denborari eta egoerari buruzko metadatuekin batera. Datu horien menpe dauden kontsumitzaileek eta beherako prozesuek egunero argitaratutako datu multzotik irakur ditzakete. Multzo honek eskaneatu lan horien guztien emaitzak edo denbora errealeko datuen katalogoaren APIak biltzen ditu. Argitaratutako aurreikuspenak pribatutasun eta segurtasun politikak automatikoki betearazteko oinarria dira.

Azkenik, aurreikuspen-zerbitzuak datu guztiak idatzi eta aurreikuspen guztiak gorde ondoren, gure Data Catalog APIak baliabidearen datu-mota aurreikuspen guztiak itzul ditzake denbora errealean. Egunero sistemak aktibo bakoitzaren azken aurreikuspen guztiak dituen datu multzo bat argitaratzen du.

Datu lurrunkorrak

Goiko prozesua aktibo iraunkorretarako diseinatuta dagoen arren, iraunkorra ez den trafikoa erakunde baten datuen parte hartzen da eta garrantzitsua izan daiteke. Hori dela eta, sistemak lineako API bat eskaintzen du denbora errealeko sailkapen-iragarpenak sortzeko, etengabeko edozein trafikorako. Denbora errealeko aurreikuspen-sistema oso erabilia da irteerako trafikoa, sarrerako trafikoa ikaskuntza automatikoko ereduetan eta iragarleen datuetan sailkatzeko.

Hemen APIak bi argumentu nagusi hartzen ditu: taldekatzeko gakoa eta aurreikusi beharreko datu gordinak. Zerbitzuak goian deskribatutako objektuen berreskurapen bera egiten du eta objektuak taldekatzen ditu gako bererako. Ezaugarri hauek iraunkortasun-cachean ere onartzen dira akatsak berreskuratzeko. Taldekatze-gako bakoitzerako, zerbitzuak aurreikuspen-zerbitzura deitu aurretik nahikoa lagin ikusi dituela ziurtatzen du, goian deskribatutako prozesua jarraituz.

optimizazioa

Biltegiratze batzuk eskaneatzeko, liburutegiak eta teknikak erabiltzen ditugu biltegiratze beroko irakurketa optimizatzeko [2] eta biltegiratze berean sartzen diren beste erabiltzaileek etengo ez dutela ziurtatzeko.

Taula oso handietarako (50 petabyte baino gehiago), optimizazio guztiak eta memoria-eraginkortasuna gorabehera, sistemak dena eskaneatzen eta kalkulatzen lan egiten du memoriarik gabe geratu aurretik. Azken finean, eskaneatzea osorik memorian konputatzen da eta ez da eskaneatzen zehar gordetzen. Taula handiek milaka zutabe badituzte egiturarik gabeko datu-multzoekin, lanak huts egin dezake, memoria-baliabide nahikorik ez dagoelako taula osoan iragarpenak egitean. Horrek estaldura murriztuko du. Horri aurre egiteko, sistema optimizatu dugu eskaneatzeko abiadura proxy gisa erabiltzeko, sistemak uneko lan-karga nola kudeatzen duen jakiteko. Abiadura iragarpen-mekanismo gisa erabiltzen dugu memoria-arazoak ikusteko eta ezaugarrien mapa iragarpenean kalkulatzeko. Aldi berean, ohi baino datu gutxiago erabiltzen ditugu.

Datu-seinaleak

Sailkapen sistema bat datuen seinaleak bezain ona da. Hemen sailkapen sistemak erabiltzen dituen seinale guztiak ikusiko ditugu.

  • Edukian oinarrituta: jakina, lehen seinale eta garrantzitsuena edukia da. Bernoulli-ren laginketa datu-edukiaren arabera eskaneatzen eta ateratzen ditugun ezaugarriak egiten ditugu datu-aktibo bakoitzean. Seinale asko edukietatik datoz. Edozein objektu mugikor posible da, lagin mota jakin bat zenbat aldiz ikusi den kalkulatzen dutenak. Esaterako, baliteke lagin batean ikusitako mezu elektroniko kopuruaren seinaleak izatea edo lagin batean zenbat emoji ikusten diren. Ezaugarrien kalkulu hauek azterketa ezberdinetan normalizatu eta agregatu daitezke.
  • Datuen jatorria: edukia gurasoen taulatik aldatzen denean lagun dezakeen seinale garrantzitsua. Adibide arrunt bat hashed datuak dira. Seme-taula bateko datuak hash egiten direnean, sarritan taula nagusitik datoz, non garbi geratzen den. Leinuaren datuek datu mota batzuk sailkatzen laguntzen dute argi irakurtzen ez direnean edo gorako taula batetik bihurtzen direnean.
  • Oharpenak: egiturarik gabeko datuak identifikatzen laguntzen duen kalitate handiko beste seinale bat. Izan ere, oharrak eta jatorri-datuek elkarrekin lan egin dezakete atributuak datu-aktibo desberdinetan zabaltzeko. Oharpenek egituratu gabeko datuen iturburua identifikatzen laguntzen dute, eta leinu-datuek datu horien fluxua biltegi osoan zehar jarrai dezaketen bitartean.
  • Datuen injekzio teknika bat da, non karaktere bereziak eta irakurezinak nahita sartzen diren datu-mota ezagunen iturri ezagunetan. Ondoren, irakurri ezinezko karaktere-sekuentzia berdina duten edukia eskaneatzen dugunean, edukia datu-mota ezagun horretatik datorrela ondoriozta dezakegu. Hau oharpenen antzeko beste datu kualitatiboen seinale bat da. Edukian oinarritutako detekzioak sartutako datuak aurkitzen laguntzen duela izan ezik.

Neurketa-neurriak

Osagai garrantzitsu bat metrikak neurtzeko metodologia zorrotza da. Sailkapena hobetzeko iteraziorako neurketa nagusiak etiketa bakoitzaren zehaztasuna eta gogoratzea dira, F2 puntuazioa delarik garrantzitsuena.

Neurri horiek kalkulatzeko, datu-aktiboak etiketatzeko metodologia independentea behar da, sistematik bertatik independentea dena, baina harekin zuzeneko alderaketa egiteko erabil daitekeena. Jarraian, Facebook-en lurreko egiak nola biltzen ditugun eta gure sailkapen sistema trebatzeko nola erabiltzen dugun deskribatzen dugu.

Datu fidagarrien bilketa

Behean zerrendatutako iturri bakoitzeko datu fidagarriak bere taulan pilatzen ditugu. Taula bakoitza iturri jakin horretatik ikusitako azken balioak gehitzeaz arduratzen da. Iturburu bakoitzak datuen kalitatearen egiaztapenak ditu, iturri bakoitzerako behatutako balioak kalitate handikoak direla eta azken datu-moten etiketak dituztela ziurtatzeko.

  • Erregistro-plataformaren konfigurazioak: Hive-tauletako zenbait eremu mota zehatz bateko datuekin betetzen dira. Datu horien erabilera eta hedapena egiaren iturri fidagarri gisa balio du.
  • Eskuzko etiketatzea: sistema mantentzen duten garatzaileak eta kanpoko etiketatzaileak zutabeak etiketatzeko trebatuak daude. Horrek, oro har, ondo funtzionatzen du biltegiko datu mota guztietarako, eta egituratu gabeko datu batzuen egia-iturri nagusia izan daiteke, hala nola mezuen datuak edo erabiltzaileen edukia.
  • Guraso-tauletako zutabeak datu jakin batzuk dituzten bezala markatu edo ohartarazi daitezke, eta datu horien jarraipena egin dezakegu haurren tauletan.
  • Exekuzio-hariak eskuratzea: Facebook-en exekuzio-hariak datu mota zehatzak eramaten dituzte. Gure eskanerra zerbitzu-arkitektura gisa erabiliz, datu mota ezagunak dituzten korronteak lagin ditzakegu eta sistemaren bidez bidal ditzakegu. Sistemak agintzen du ez dituela datu horiek gordeko.
  • Lagin-taulak: erlauntza-taula handiak, datu-corpus osoa dutela ezagutzen dena, prestakuntza-datu gisa ere erabil daitezke eta eskanerretik pasa daitezke zerbitzu gisa. Hau oso ona da datu-mota sorta osoa duten tauletarako, beraz, zutabe bat ausaz lagintzea datu-mota horren multzo osoa lagintzearen baliokidea da.
  • Datu sintetikoak: hegan datuak sortzen dituzten liburutegiak ere erabil ditzakegu. Honek ondo funtzionatzen du datu-mota sinple eta publikoetarako, hala nola helbidea edo GPSa.
  • Datuen arduradunak: pribatutasun-programek normalean datuen arduradunak erabiltzen dituzte datuei eskuz politikak esleitzeko. Honek egia-iturri oso zehatz gisa balio du.

Egia iturri nagusi guztiak corpus batean konbinatzen ditugu datu horiekin guztiekin. Baliagarritasunaren erronkarik handiena datu biltegiaren adierazgarria dela ziurtatzea da. Bestela, sailkapen-motorrak gehiegi entrenatu daitezke. Horri aurre egiteko, goiko iturri guztiak erabiltzen dira oreka bermatzeko ereduak entrenatzerakoan edo metrikak kalkulatzerakoan. Horrez gain, giza etiketatzaileek biltegiko zutabe desberdinak lagintzen dituzte modu uniformean eta horren arabera etiketatzen dituzte datuak, lurreko egiaren bilketa alderdigabea izan dadin.

Etengabeko Integrazioa

Iterazio azkarra eta hobekuntza ziurtatzeko, garrantzitsua da beti sistemaren errendimendua denbora errealean neurtzea. Gaur egungo sailkapen-hobekuntza guztiak sistemaren aldean neur ditzakegu, eta, beraz, datuetan oinarrituta etorkizuneko hobekuntzak taktikoki bideratu ditzakegu. Hemen sistemak baliozko datuek ematen duten feedback-begizta nola osatzen duen ikusiko dugu.

Programazio-sistemak iturri fidagarri bateko etiketa duen aktibo bat aurkitzen duenean, bi zeregin programatzen ditugu. Lehenengoak gure produkzio-eskanerra erabiltzen du eta, beraz, gure ekoizpen-gaitasunak. Bigarren zereginak azken ezaugarriak dituen eraikuntza-eskaner berriena erabiltzen du. Zeregin bakoitzak bere irteera idazten du bere taulan, sailkapenaren emaitzekin batera bertsioak etiketatuz.

Horrela konparatzen ditugu kaleratze hautagaiaren sailkapen emaitzak eta ekoizpen eredua denbora errealean.

Datu-multzoek RC eta PROD ezaugarriak konparatzen dituzten bitartean, iragarpen-zerbitzuaren ML sailkapen-motorraren aldaera asko erregistratzen dira. Duela gutxi eraikitako ikaskuntza automatikoaren eredua, ekoizpenean dagoen egungo eredua eta edozein eredu esperimental. Ikuspegi berberak ereduaren bertsio desberdinak "zatitzeko" aukera ematen digu (gure arau sailkatzaileekiko agnostikoak) eta neurketak denbora errealean alderatzeko. Horrek errazten du zehaztea ML esperimentu bat noiz dagoen prest produkzioan.

Gauero, egun horretarako kalkulatutako RC ezaugarriak ML prestakuntza kanalera bidaltzen dira, non eredua azken RC ezaugarrietan trebatzen den eta bere errendimendua ebaluatzen du lurreko egiaren datu-multzoarekin.

Goizero, ereduak prestakuntza osatzen du eta automatikoki eredu esperimental gisa argitaratzen da. Zerrenda esperimentalean automatikoki sartzen da.

Emaitza batzuk

100 datu mota baino gehiago zehaztasun handiz etiketatuta daude. Ondo egituratutako motak, hala nola posta elektronikoak eta telefono zenbakiak, 2 baino f0,95 puntuazio handiagoarekin sailkatzen dira. Doako datu motak, hala nola, erabiltzaileek sortutako edukia eta izena, gainera, oso ondo funtzionatzen dute, F2 puntuazioek 0,85 baino handiagoak dituzte.

Datu iraunkor eta lurrunkorren zutabe indibidual ugari sailkatzen dira egunero biltegi guztietan. 500 terabyte baino gehiago eskaneatzen dira egunero 10 datu biltegi baino gehiagotan. Biltegi horietako gehienek % 98tik gorako estaldura dute.

Denborarekin, sailkapena oso eraginkorra bihurtu da, eta etengabeko lineaz kanpoko korronte bateko sailkapen-lanek batez beste 35 segundo behar dituzte aktibo bat eskaneatzen denetik zutabe bakoitzeko iragarpenak kalkulatzen arte.

Datuen sailkapen eskalagarria segurtasunerako eta pribatutasunerako
Arroza. 2. RC objektuak nola sortzen diren eta eredura bidaltzen diren ulertzeko etengabeko integrazio-fluxua deskribatzen duen diagrama.

Datuen sailkapen eskalagarria segurtasunerako eta pribatutasunerako
3. Irudia. Ikaskuntza automatikoko osagai baten goi-mailako diagrama.

Ikaskuntza automatikoko sistemaren osagaia

Aurreko atalean, sistemaren arkitektura orokorrean sakondu genuen, eskala, optimizazioa eta lineaz kanpoko eta lineako datu-fluxuak nabarmenduz. Atal honetan, aurreikuspen-zerbitzua aztertuko dugu eta iragarpen-zerbitzua bultzatzen duen ikaskuntza automatikoko sistema deskribatuko dugu.

100 datu-mota baino gehiagorekin eta egituratu gabeko eduki batzuekin, hala nola mezuen datuak eta erabiltzaileen edukia, eskuzko heuristika hutsak erabiltzeak sailkapen azpiparametrikoaren zehaztasuna lortzen du, batez ere egituratu gabeko datuetarako. Hori dela eta, ikasketa automatikoko sistema bat ere garatu dugu egituratu gabeko datuen konplexutasunari aurre egiteko. Ikaskuntza automatikoa erabiltzeari esker, eskuzko heuristikoetatik urruntzen hasteko eta funtzioekin eta datu-seinale osagarriekin lan egin dezakezu (adibidez, zutabe-izenak, datuen jatorria) zehaztasuna hobetzeko.

Inplementatutako ereduak objektu trinkoen eta urrien gaineko irudikapen bektorialak [3] aztertzen ditu bereizita. Ondoren, hauek konbinatzen dira bektore bat eratzeko, eta loteen normalizazio [4] eta linealtasun ez-pauso batzuen bidez igarotzen da azken emaitza lortzeko. Azken emaitza [0-1] arteko koma mugikorreko zenbaki bat da etiketa bakoitzeko, adibidea sentikortasun mota horretakoa izateko probabilitatea adierazten duena. Eredurako PyTorch erabiltzeak azkarrago mugitzeko aukera eman zigun, taldetik kanpoko garatzaileei aldaketak azkar egin eta probatzeko aukera emanez.

Arkitektura diseinatzerakoan, garrantzitsua zen objektu urriak (adibidez, testua) eta trinkoak (adibidez, zenbakizkoak) bereizita modelatzea, haien berezko desberdintasunengatik. Azken arkitekturarako, parametroen miaketa bat egitea ere garrantzitsua zen ikaskuntza-tasa, lote-tamaina eta beste hiperparametro batzuen balio optimoa aurkitzeko. Optimizatzailea aukeratzea ere hiperparametro garrantzitsua izan zen. Optimizatzaile ezagun bat aurkitu dugu Adamsarritan gehiegizko egokitzea dakar, eredu batekin, berriz SGD egonkorragoa. Ereduan zuzenean sartu behar genituen Γ±abardura gehigarriak zeuden. Adibidez, ezaugarri batek balio jakin bat duenean ereduak iragarpen determinista bat egiten duela ziurtatzen zuten arau estatikoak. Arau estatiko hauek gure bezeroek definitzen dituzte. Horiek ereduan zuzenean txertatzeak arkitektura autonomoagoa eta sendoagoa lortu zuela ikusi genuen, ertz kasu berezi hauek kudeatzeko prozesatzeko osteko urrats bat ezartzearen aurka. Kontuan izan, gainera, arau hauek entrenamendu garaian desgaituta daudela, desnibela jaitsierako entrenamendu-prozesua ez oztopatzeko.

Problems

Erronketako bat kalitate handiko datu fidagarriak biltzea zen. Ereduak konfiantza behar du klase bakoitzarentzat, objektuen eta etiketen arteko asoziazioak ikas ditzan. Aurreko atalean, sistema neurtzeko eta ereduen prestakuntzarako datuak biltzeko metodoak aztertu ditugu. Analisiak erakutsi zuen datu-klaseak, esate baterako, kreditu-txartelaren eta banku-kontuen zenbakiak ez direla oso ohikoak gure biltegian. Horrek zaildu egiten du datu fidagarri ugari biltzea ereduak entrenatzeko. Arazo honi aurre egiteko, klase hauetarako lurreko egiaren datu sintetikoak lortzeko prozesuak garatu ditugu. Mota sentikorretarako sortzen ditugu datu horiek barne SSN, kreditu txartelaren zenbakiak ΠΈ IBAN-Ereduak aurretik aurreikusi ezin zituen zenbakiak. Ikuspegi honi esker, datu sentikorrak prozesatu daitezke benetako datu sentikorrak ezkutatzeak lotutako pribatutasun-arriskurik gabe.

Oinarrizko egiaren gaiez gain, lantzen ari garen arkitektura gai irekiak daude, esaterako isolamendua aldatzea ΠΈ goiz geldialdia. Aldaketen isolamendua garrantzitsua da sarearen zati ezberdinetan aldaketa desberdinak egiten direnean, eragina klase zehatzetan isolatuta dagoela eta aurreikuspenen errendimendu orokorrean eragin handirik ez duela ziurtatzeko. Gelditze goiztiarrari buruzko irizpideak hobetzea ere funtsezkoa da, prestakuntza-prozesua klase guztien puntu egonkor batean gelditu ahal izateko, klase batzuk gehiegi entrenatzen duten eta beste batzuk ez dauden puntu batean.

Ezaugarrien garrantzia

Ezaugarri berri bat eredu batean sartzen denean, ereduan duen eragin orokorra ezagutu nahi dugu. Era berean, iragarpenak gizakiak interpretagarriak direla ziurtatu nahi dugu, datu mota bakoitzerako zer ezaugarri erabiltzen ari diren zehatz-mehatz ulertu ahal izateko. Horretarako garatu eta aurkeztu dugu klaseka ezaugarrien garrantzia PyTorch eredurako. Kontuan izan hau ezaugarri orokorraren garrantziatik desberdina dela, normalean onartzen dena, ez digulako esaten klase jakin baterako zein ezaugarri diren garrantzitsuak. Objektu baten garrantzia neurtzen dugu objektua berrantolatu ondoren iragarpen-errorearen gehikuntza kalkulatuz. Ezaugarri bat "garrantzitsua" da balioak trukatzeak ereduaren errorea areagotzen duenean, kasu honetan eredua ezaugarrian oinarritzen baitzen bere iragarpena egiteko. Ezaugarri batek "garrantzirik gabekoa" da bere balioak nahastean ereduaren errorea aldatu gabe uzten du, kasu honetan ereduak alde batera utzi baitu [5].

Klase bakoitzerako ezaugarriak duen garrantziak eredua interpretagarria egiteko aukera ematen digu, etiketa bat iragartzerakoan ereduak zer begiratzen duen ikusi ahal izateko. Adibidez, aztertzen dugunean ADDR, orduan bermatzen dugu helbidearekin lotutako seinalea, adibidez AddressLinesCount, klase bakoitzeko ezaugarrien garrantzia-taulan goian kokatzen da, gure giza intuizioa ereduak ikasitakoarekin ondo bat etor dadin.

Ebaluazio

Garrantzitsua da arrakasta lortzeko metrika bakarra definitzea. Guk aukeratu dugu F2 - Oroimenaren eta zehaztasunaren arteko oreka (gogoratzearen aldeko joera apur bat handiagoa da). Gogoratzea garrantzitsuagoa da pribatutasunaren erabilera kasu baterako zehaztasuna baino, ezinbestekoa baita taldeak datu sentikorrik ez galtzea (arrazoizko zehaztasuna bermatuz). Gure ereduaren benetako F2 errendimenduaren ebaluazioa paper honen esparrutik kanpo dago. Dena den, sintonizazio kontu handiarekin (0,9+) F2 puntuazio altuak lor ditzakegu klase sentikor garrantzitsuenetarako.

Lotutako lana

Egituratu gabeko dokumentuak automatikoki sailkatzeko algoritmo asko daude hainbat metodo erabiliz, hala nola ereduen parekatzea, dokumentuen antzekotasun bilaketa eta ikaskuntza automatikoko hainbat metodo (bayesiera, erabaki-zuhaitzak, k-hurbilen bizilagunak eta beste asko) [6]. Horietako edozein sailkapen baten parte gisa erabil daiteke. Hala ere, arazoa eskalagarritasuna da. Artikulu honetako sailkapenaren ikuspegia malgutasun eta errendimendurako joera du. Horri esker, etorkizunean klase berriak onartzen ditugu eta latentzia baxua mantentzen dugu.

Datuen hatz-markaren inguruan ere lan handia dago. Esaterako, [7]-ko egileek datu sentikorren ihesak atzematearen arazoan zentratzen den irtenbide bat deskribatu zuten. Oinarrizko suposizioa da datuei hatz-markak har daitezkeela datu sentikor ezagunen multzo batekin lotzeko. [8]-ko egileek pribatutasun-isuriaren antzeko arazo bat deskribatzen dute, baina haien konponbidea Android arkitektura zehatz batean oinarritzen da eta erabiltzaileen ekintzek informazio pertsonala partekatzea eragiten badute edo azpian dagoen aplikazioak erabiltzaileen datuak isuri egiten baditu soilik sailkatzen da. Hemengo egoera zertxobait desberdina da, erabiltzaileen datuak ere oso desegituratuak izan daitezkeelako. Horregatik, hatz-markak baino teknika konplexuagoa behar dugu.

Azkenik, datu sentikor batzuen datu eskasiari aurre egiteko, datu sintetikoak sartu ditugu. Datuak areagotzeari buruzko literatura ugari dago, adibidez, [9]-ko egileek entrenamendu garaian zarata injekzioaren eginkizuna aztertu zuten eta emaitza positiboak ikusi zituzten gainbegiratutako ikaskuntzan. Pribatutasunaren ikuspegia ezberdina da, datu zaratatsuak sartzea kontrakoragarria izan daitekeelako, eta, horren ordez, kalitate handiko datu sintetikoetan zentratzen gara.

Ondorioa

Artikulu honetan, datu bat sailka dezakeen sistema bat aurkeztu dugu. Horri esker, pribatutasun eta segurtasun politikak betearazteko sistemak sor ditzakegu. Azpiegitura eskalagarriak, etengabeko integrazioak, ikaskuntza automatikoak eta kalitate handiko datuen bermeak funtsezko eginkizuna dutela gure pribatutasun-ekimen askoren arrakastan.

Etorkizuneko lanerako norabide asko daude. Honek eskematizatu gabeko datuei (fitxategiei) euskarria ematea izan daiteke, datu-mota ez ezik, sentsibilitate-maila ere sailkatzea eta prestakuntzan zehar auto-gainbegiratuta ikaskuntza erabiltzea, adibide sintetiko zehatzak sortuz. Horrek, aldi berean, ereduari galerak gehien murrizten lagunduko dio. Etorkizuneko lana ikerketa-lan-fluxuan ere zentratu liteke, non detekziotik haratago joan eta pribatutasun-urraketa ezberdinen arrazoiak aztertzen ditugun. Honek sentikortasun-analisia bezalako kasuetan lagunduko du (hau da, datu-mota baten pribatutasun-sentsibilitatea handia den (adibidez, erabiltzailearen IPa) edo baxua (adibidez, Facebook-en barneko IPa)).

bibliografia

  1. David Ben-David, Tamar Domany eta Abigail Tarem. Enpresen datuen sailkapena web semantikoaren teknologiak erabiliz. Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks eta Birte Glimm, editoreak, Web Semantikoa - ISWC 2010, 66–81 orrialdeak, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang eta Sanjeev Kumar. f4: Facebook-en BLOB biltegiratze sistema epela. In USENIX Sistema Eragileen Diseinua eta Inplementazioari buruzko 11. Jardunaldia (OSDI 14), 383–398 orrialdeak, Broomfield, CO, 2014ko urria. USENIX Elkartea.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado eta Jeff Dean. Hitz eta esaldien irudikapen banatuak eta haien konposizioa. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani eta K. Q. Weinberger, editoreak, Aurrerapenak Informazio Neuronala Prozesatzeko Sistemetan 26, 3111–3119 orrialdeak. Curran Associates, Inc., 2013.
  4. Sergey Ioffe eta Christian Szegedy. Batch normalizazioa: sareko prestakuntza sakona bizkortzea barneko aldagaien aldaketa murriztuz. Francis Bach eta David Blei, editoreetan, Machine Learning buruzko Nazioarteko 32. Konferentziaren aktak, liburuko 37 Machine Learning Ikerketaren aktak, 448–456 orrialdeak, Lille, Frantzia, 07eko uztailak 09–2015. PMLR.
  5. Leo Breiman. Ausazko basoak. Mach. Ikasi., 45(1):5–32, 2001eko urria.
  6. Thair Nu Phyu. Datu meatzaritzan sailkapen tekniken inkesta.
  7. X. Shu, D. Yao eta E. Bertino. Pribatutasuna zaintzeko datu sentikorrak esposizioa hautematea. IEEE Transactions Information forensics and Security on, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning eta Xiaoyang Wang. Appintent: datu-transmisio sentikorra aztertzea Android-en pribatutasun-isuriak detektatzeko. 1043–1054 orrialdeak, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong eta Quoc V. Le. Gainbegiratu gabeko datuak handitzea.

Datuen sailkapen eskalagarria segurtasunerako eta pribatutasunerako
Ezagutu SkillFactory lineako ikastaroak eginez trebetasunei eta soldatari dagokionez, hutsetik edo mailaz igotzeko lanbide bat lortzeko xehetasunak:

Ikastaro gehiago

Iturria: www.habr.com

Gehitu iruzkin berria