Klasifikimi i shkallëzueshëm i të dhënave për sigurinë dhe privatësinë

Klasifikimi i shkallëzueshëm i të dhënave për sigurinë dhe privatësinë

Klasifikimi i të dhënave të bazuara në përmbajtje është një problem i hapur. Sistemet tradicionale të parandalimit të humbjes së të dhënave (DLP) e zgjidhin këtë problem duke marrë gjurmët e gishtave të të dhënave përkatëse dhe duke monitoruar pikat përfundimtare për marrjen e gjurmëve të gishtërinjve. Duke pasur parasysh numrin e madh të burimeve të të dhënave që ndryshojnë vazhdimisht në Facebook, kjo qasje jo vetëm që nuk është e shkallëzueshme, por edhe joefektive për të përcaktuar se ku ndodhen të dhënat. Ky punim fokusohet në një sistem nga skaji në fund të ndërtuar për të zbuluar lloje të ndjeshme semantike në Facebook në shkallë dhe për të zbatuar automatikisht ruajtjen e të dhënave dhe kontrollin e aksesit.

Qasja e përshkruar këtu është sistemi ynë i parë i privatësisë nga skaji në skaj që përpiqet të zgjidhë këtë problem duke përfshirë sinjale të dhënash, mësimin e makinerive dhe teknikat tradicionale të gjurmëve të gishtërinjve për të hartuar dhe klasifikuar të gjitha të dhënat në Facebook. Sistemi i përshkruar operohet në një mjedis prodhimi, duke arritur një rezultat mesatar F2 prej 0,9+ në klasa të ndryshme të privatësisë ndërsa përpunon sasi të mëdha burimesh të dhënash nëpër dhjetëra depo. Prezantimi i një përkthimi të letrës ArXiv të Facebook mbi klasifikimin e shkallëzuar të të dhënave për sigurinë dhe privatësinë bazuar në mësimin e makinerive.

Paraqitje

Sot, organizatat mbledhin dhe ruajnë sasi të mëdha të dhënash në një sërë formatesh dhe vendndodhjesh [1], më pas të dhënat konsumohen në shumë vende, ndonjëherë kopjohen ose ruhen disa herë, duke rezultuar në informacione të vlefshme dhe të ndjeshme të biznesit që shpërndahen në shumë të dhëna të ndërmarrjes. dyqane. Kur një organizate i kërkohet të përmbushë disa kërkesa ligjore ose rregullatore, të tilla si pajtueshmëria me rregulloret në proceset civile, bëhet e nevojshme të mblidhen të dhëna për vendndodhjen e të dhënave të kërkuara. Kur një rregullore e privatësisë thotë se një organizatë duhet të maskojë të gjithë Numrat e Sigurimeve Shoqërore (SSN) kur ndan informacionin personal me entitete të paautorizuara, hapi i parë i natyrshëm është kërkimi i të gjitha SSN-ve nëpër dyqanet e të dhënave të organizatës. Në rrethana të tilla, klasifikimi i të dhënave bëhet kritik [1]. Sistemi i klasifikimit do t'i lejojë organizatat të zbatojnë automatikisht politikat e privatësisë dhe sigurisë, të tilla si aktivizimi i politikave të kontrollit të aksesit, mbajtja e të dhënave. Facebook po prezanton një sistem që kemi ndërtuar në Facebook që përdor sinjale të shumta të dhënash, arkitekturë të shkallëzueshme të sistemit dhe mësimin e makinerive për të zbuluar lloje të ndjeshme të të dhënave semantike.

Zbulimi dhe klasifikimi i të dhënave është procesi i gjetjes dhe etiketimit të të dhënave në mënyrë që informacioni përkatës të mund të merret shpejt dhe me efikasitet kur nevojitet. Procesi aktual është më tepër manual në natyrë dhe konsiston në ekzaminimin e ligjeve ose rregulloreve përkatëse, përcaktimin e llojeve të informacionit që duhet të konsiderohen të ndjeshëm dhe cilat janë nivelet e ndryshme të ndjeshmërisë, dhe më pas në ndërtimin e klasave dhe politikave të klasifikimit në përputhje me rrethanat [1]. Parandalimi i humbjes së të dhënave (DLP) më pas merr shenjat e gishtave të të dhënave dhe gjurmon pikat fundore në rrjedhën e poshtme për të marrë gjurmët e gishtërinjve. Kur kemi të bëjmë me një magazinë të rëndë të aseteve me petabajt të dhënash, kjo qasje thjesht nuk shkallëzohet.

Synimi ynë është të ndërtojmë një sistem klasifikimi të të dhënave që shkallëzohet në të dhëna të qëndrueshme dhe kalimtare të përdoruesit, pa asnjë kufizim shtesë në llojin ose formatin e të dhënave. Ky është një qëllim i guximshëm dhe natyrisht që vjen me sfida. Një rekord i dhënë i të dhënave mund të jetë i gjatë me mijëra karaktere.

Klasifikimi i shkallëzueshëm i të dhënave për sigurinë dhe privatësinë
Figura 1. Rrjedhat e parashikimit online dhe offline

Prandaj, ne duhet ta përfaqësojmë atë në mënyrë efikase duke përdorur një grup të përbashkët karakteristikash që më vonë mund të kombinohen dhe të zhvendosen lehtësisht. Këto veçori jo vetëm që duhet të ofrojnë klasifikim të saktë, por gjithashtu duhet të ofrojnë fleksibilitet dhe shtrirje për të shtuar dhe zbuluar me lehtësi lloje të reja të dhënash në të ardhmen. Së dyti, duhet të merreni me tabela të mëdha jashtë linje. Të dhënat e qëndrueshme mund të ruhen në tabela me madhësi shumë petabajt. Kjo mund të rezultojë në shpejtësi më të ngadalta të skanimit. Së treti, ne duhet t'i përmbahemi klasifikimit të rreptë SLA për të dhënat e paqëndrueshme. Kjo e detyron sistemin të jetë shumë efikas, i shpejtë dhe i saktë. Së fundi, ne duhet të ofrojmë klasifikim të të dhënave me vonesë të ulët për të dhënat e paqëndrueshme për të kryer klasifikimin në kohë reale, si dhe për rastet e përdorimit të internetit.

Ky punim përshkruan se si u përballëm me sfidat e mësipërme dhe paraqet një sistem klasifikimi të shpejtë dhe të shkallëzuar që klasifikon elementët e të dhënave të të gjitha llojeve, formateve dhe burimeve bazuar në një grup të përbashkët karakteristikash. Ne zgjeruam arkitekturën e sistemit dhe krijuam një model të personalizuar të mësimit të makinerive për të klasifikuar shpejt të dhënat jashtë linje dhe në linjë. Ky punim është organizuar si më poshtë: Seksioni 2 paraqet dizajnin e përgjithshëm të sistemit. Seksioni 3 diskuton pjesët e një sistemi të mësimit të makinerive. Seksionet 4 dhe 5 theksojnë punën e lidhur dhe përshkruajnë drejtimet e ardhshme të punës.

Arkitekturë

Për t'u marrë me sfidat e të dhënave të vazhdueshme dhe të shkallës së Facebook-ut në internet, sistemi i klasifikimit ka dy rrjedha të veçanta, të cilat do t'i diskutojmë në detaje.

Të dhëna të qëndrueshme

Fillimisht, sistemi duhet të mësojë për asetet e shumta të informacionit të Facebook. Për çdo depo, mblidhen disa informacione bazë, si qendra e të dhënave që përmban ato të dhëna, sistemi që përmban ato të dhëna dhe asetet e vendosura në depon e të dhënave specifike. Kjo krijon një katalog të meta të dhënave që lejon sistemin të marrë në mënyrë efikase të dhënat pa mbingarkuar klientët dhe burimet e përdorura nga inxhinierë të tjerë.

Ky katalog i meta të dhënave ofron një burim autoritar për të gjitha asetet e skanuara dhe ju lejon të gjurmoni statusin e aseteve të ndryshme. Duke përdorur këtë informacion, prioriteti i planifikimit përcaktohet bazuar në të dhënat e mbledhura dhe informacionin e brendshëm nga sistemi, siç është koha kur aktivi u skanua me sukses dhe koha kur u krijua, si dhe kërkesat e mëparshme të memories dhe CPU-së për atë aktiv nëse është skanuar më parë. Më pas, për çdo burim të dhënash (pasi burimet bëhen të disponueshme), thirret një punë për të skanuar burimin.

Çdo punë është një skedar binar i përpiluar që kryen kampionimin e Bernoulli në të dhënat më të fundit të disponueshme për çdo aktiv. Aktivi ndahet në kolona individuale, ku rezultati i klasifikimit të secilës kolonë përpunohet në mënyrë të pavarur. Për më tepër, sistemi skanon për çdo të dhënë të ngopur brenda kolonave. JSON, grupet, strukturat e koduara, URL-të, të dhënat e serializuara bazë 64 dhe më shumë skanohen të gjitha. Kjo mund të rrisë ndjeshëm kohën e ekzekutimit të skanimit, sepse një tabelë e vetme mund të përmbajë mijëra kolona të mbivendosura në një pikë. json.

Për çdo rresht që zgjidhet në aktivin e të dhënave, sistemi i klasifikimit nxjerr objektet float dhe tekst nga përmbajtja dhe shoqëron çdo objekt përsëri në kolonën nga e cila është marrë. Prodhimi i hapit të nxjerrjes së veçorive është një hartë e të gjitha veçorive për secilën kolonë që gjendet në aktivin e të dhënave.

Për çfarë janë shenjat?

Koncepti i atributeve është kyç. Në vend të tipareve float dhe tekstit, ne mund të kalojmë mostra të papërpunuara të vargut që nxirren drejtpërdrejt nga çdo burim i të dhënave. Për më tepër, modelet e mësimit të makinerive mund të trajnohen drejtpërdrejt në çdo mostër, në vend të qindra llogaritjeve të veçorive që përpiqen vetëm të përafrojnë kampionin. Ka disa arsye për këtë:

  1. Privatësia e parë: Më e rëndësishmja, koncepti i veçorive na lejon të ruajmë në kujtesë vetëm ato modele që marrim. Kjo siguron që ne i ruajmë mostrat për një qëllim të vetëm dhe kurrë nuk i regjistrojmë ato me përpjekjet tona. Kjo është veçanërisht e rëndësishme për të dhënat e paqëndrueshme, pasi shërbimi duhet të mbajë një gjendje klasifikimi përpara se të japë një parashikim.
  2. Kujtesa: Disa mostra mund të jenë me mijëra karaktere. Ruajtja e të dhënave të tilla dhe transmetimi i tyre në pjesë të sistemit konsumon në mënyrë të panevojshme shumë bajt shtesë. Të dy faktorët mund të kombinohen me kalimin e kohës, duke pasur parasysh se ka shumë burime të dhënash me mijëra kolona.
  3. Grumbullimi i veçorive: Veçoritë përfaqësojnë qartë rezultatet e çdo skanimi përmes një grupi veçorish, duke lejuar sistemin të kombinojë rezultatet e skanimeve të mëparshme të të njëjtit burim të dhënash në një mënyrë të përshtatshme. Kjo mund të jetë e dobishme për grumbullimin e rezultateve të skanimit nga një burim i vetëm i të dhënave përgjatë ekzekutimeve të shumta.

Veçoritë më pas dërgohen në një shërbim parashikimi ku ne përdorim klasifikimin e bazuar në rregulla dhe mësimin e makinës për të parashikuar etiketat e të dhënave të secilës kolonë. Shërbimi mbështetet si në klasifikuesit e rregullave ashtu edhe në mësimin e makinerive dhe zgjedh parashikimin më të mirë të dhënë nga çdo objekt parashikimi.

Klasifikuesit e rregullave janë heuristikë manuale, ata përdorin llogaritjet dhe koeficientët për të normalizuar një objekt në një interval prej 0 deri në 100. Pasi të krijohet një rezultat i tillë fillestar për çdo lloj të dhënash dhe emër kolone të lidhur me ato të dhëna, ai nuk përfshihet në asnjë "ndalim". listat" ,Klasifikuesi i rregullave zgjedh rezultatin më të lartë të normalizuar midis të gjitha llojeve të të dhënave.

Për shkak të kompleksitetit të klasifikimit, mbështetja vetëm në heuristikat manuale rezulton në saktësi të ulët të klasifikimit, veçanërisht për të dhënat e pastrukturuara. Për këtë arsye, ne zhvilluam një sistem të mësimit të makinerive për të punuar me klasifikimin e të dhënave të pastrukturuara si përmbajtja dhe adresa e përdoruesit. Mësimi i makinerive ka bërë të mundur fillimin e largimit nga heuristika manuale dhe aplikimin e sinjaleve shtesë të të dhënave (p.sh. emrat e kolonave, prejardhja e të dhënave), duke përmirësuar ndjeshëm saktësinë e zbulimit. Ne do të zhytemi thellë në arkitekturën tonë të mësimit të makinerive më vonë.

Shërbimi i parashikimit ruan rezultatet për secilën kolonë së bashku me meta të dhënat në lidhje me kohën dhe gjendjen e skanimit. Çdo konsumator dhe proces në rrjedhën e poshtme që varen nga këto të dhëna mund ta lexojnë atë nga grupi i të dhënave të publikuara ditore. Ky grup grumbullon rezultatet e të gjitha këtyre punëve të skanimit ose API-të e Katalogut të të Dhënave në kohë reale. Parashikimet e publikuara janë baza për zbatimin automatik të politikave të privatësisë dhe sigurisë.

Më në fund, pasi shërbimi i parashikimit të shkruajë të gjitha të dhënat dhe të ruhen të gjitha parashikimet, API-ja jonë e Katalogut të të Dhënave mund të kthejë të gjitha parashikimet e llojit të të dhënave për burimin në kohë reale. Çdo ditë sistemi publikon një grup të dhënash që përmban të gjitha parashikimet më të fundit për çdo aktiv.

Të dhëna të paqëndrueshme

Ndërsa procesi i mësipërm është projektuar për asete të vazhdueshme, trafiku jo i vazhdueshëm konsiderohet gjithashtu pjesë e të dhënave të një organizate dhe mund të jetë i rëndësishëm. Për këtë arsye, sistemi ofron një API në internet për gjenerimin e parashikimeve të klasifikimit në kohë reale për çdo trafik të ndërprerë. Sistemi i parashikimit në kohë reale përdoret gjerësisht në klasifikimin e trafikut në dalje, trafikut hyrës në modelet e mësimit të makinerive dhe të dhënat e reklamuesve.

Këtu API merr dy argumente kryesore: çelësin e grupimit dhe të dhënat e papërpunuara që do të parashikohen. Shërbimi kryen të njëjtin rikthim të objektit siç përshkruhet më sipër dhe grupon objektet së bashku për të njëjtin çelës. Këto veçori mbështeten gjithashtu në cache-in e qëndrueshmërisë për rikuperimin e dështimit. Për çdo çelës grupimi, shërbimi siguron që ka parë mjaftueshëm mostra përpara se të telefonojë shërbimin e parashikimit, duke ndjekur procesin e përshkruar më sipër.

optimization

Për të skanuar disa depo, ne përdorim biblioteka dhe teknika për të optimizuar leximin nga ruajtja e nxehtë [2] dhe për të siguruar që të mos ketë ndërprerje nga përdoruesit e tjerë që aksesojnë të njëjtën hapësirë ​​ruajtëse.

Për tabela jashtëzakonisht të mëdha (50+ petabajt), pavarësisht nga të gjitha optimizimet dhe efikasiteti i kujtesës, sistemi punon për të skanuar dhe llogaritur gjithçka përpara se të mbarojë memoria. Në fund të fundit, skanimi llogaritet tërësisht në memorie dhe nuk ruhet gjatë skanimit. Nëse tabelat e mëdha përmbajnë mijëra kolona me grumbullime të pastrukturuara të dhënash, puna mund të dështojë për shkak të burimeve të pamjaftueshme të memories gjatë kryerjes së parashikimeve në të gjithë tabelën. Kjo do të rezultojë në ulje të mbulimit. Për të luftuar këtë, ne optimizuam sistemin për të përdorur shpejtësinë e skanimit si një përfaqësues për mënyrën se sa mirë sistemi trajton ngarkesën aktuale të punës. Ne përdorim shpejtësinë si një mekanizëm parashikues për të parë problemet e kujtesës dhe për të llogaritur në mënyrë parashikuese hartën e veçorive. Në të njëjtën kohë, ne përdorim më pak të dhëna se zakonisht.

Sinjalet e të dhënave

Një sistem klasifikimi është po aq i mirë sa sinjalet nga të dhënat. Këtu do të shikojmë të gjitha sinjalet e përdorura nga sistemi i klasifikimit.

  • Bazuar në përmbajtje: Sigurisht, sinjali i parë dhe më i rëndësishëm është përmbajtja. Kampionimi i Bernoulli kryhet në çdo aktiv të të dhënave që ne skanojmë dhe nxjerrim veçori bazuar në përmbajtjen e të dhënave. Shumë shenja vijnë nga përmbajtja. Është i mundur çdo numër objektesh lundruese, të cilat përfaqësojnë llogaritjet se sa herë është parë një lloj i caktuar mostre. Për shembull, mund të kemi shenja të numrit të emaileve që shihen në një mostër, ose shenja se sa emoji shihen në një mostër. Këto llogaritje të veçorive mund të normalizohen dhe të grumbullohen nëpër skanime të ndryshme.
  • Prejardhja e të dhënave: Një sinjal i rëndësishëm që mund të ndihmojë kur përmbajtja ka ndryshuar nga tabela mëmë. Një shembull i zakonshëm janë të dhënat e hashuara. Kur të dhënat në një tabelë fëmijësh hashohen, ato shpesh vijnë nga tabela prind, ku mbeten të paqarta. Të dhënat e linjës ndihmojnë në klasifikimin e llojeve të caktuara të të dhënave kur ato nuk lexohen qartë ose konvertohen nga një tabelë në rrjedhën e sipërme.
  • Shënime: Një tjetër sinjal me cilësi të lartë që ndihmon në identifikimin e të dhënave të pastrukturuara. Në fakt, shënimet dhe të dhënat e origjinës mund të punojnë së bashku për të përhapur atributet nëpër asete të ndryshme të të dhënave. Shënimet ndihmojnë në identifikimin e burimit të të dhënave të pastrukturuara, ndërsa të dhënat e linjës mund të ndihmojnë në gjurmimin e rrjedhës së atyre të dhënave në të gjithë depo.
  • Injektimi i të dhënave është një teknikë ku karaktere të veçanta, të palexueshme futen qëllimisht në burime të njohura të llojeve të njohura të të dhënave. Më pas, sa herë që skanojmë përmbajtje me të njëjtën sekuencë karakteresh të palexueshme, mund të konkludojmë se përmbajtja vjen nga ai lloj i njohur i të dhënave. Ky është një tjetër sinjal cilësor i të dhënave i ngjashëm me shënimet. Përveç që zbulimi i bazuar në përmbajtje ndihmon në zbulimin e të dhënave të futura.

Matja e Metrikës

Një komponent i rëndësishëm është një metodologji rigoroze për matjen e metrikës. Metrikat kryesore për përsëritjen e përmirësimit të klasifikimit janë saktësia dhe rikujtimi i çdo etikete, ku rezultati F2 është më i rëndësishmi.

Për të llogaritur këto metrikë, nevojitet një metodologji e pavarur për etiketimin e aseteve të të dhënave, e cila është e pavarur nga vetë sistemi, por që mund të përdoret për krahasim të drejtpërdrejtë me të. Më poshtë përshkruajmë se si mbledhim të vërtetën bazë nga Facebook dhe e përdorim atë për të trajnuar sistemin tonë të klasifikimit.

Mbledhja e të dhënave të besueshme

Ne grumbullojmë të dhëna të besueshme nga secili burim i listuar më poshtë në tabelën e tij. Çdo tabelë është përgjegjëse për grumbullimin e vlerave më të fundit të vëzhguara nga ai burim i veçantë. Çdo burim ka kontrolle të cilësisë së të dhënave për të siguruar që vlerat e vëzhguara për çdo burim janë me cilësi të lartë dhe përmbajnë etiketat më të fundit të tipit të të dhënave.

  • Konfigurimet e platformës së regjistrimit: Disa fusha në tabelat e koshereve janë të mbushura me të dhëna që janë të një lloji specifik. Përdorimi dhe shpërndarja e këtyre të dhënave shërben si një burim i besueshëm i së vërtetës.
  • Etiketimi manual: Zhvilluesit që mirëmbajnë sistemin, si dhe etiketuesit e jashtëm janë trajnuar për të etiketuar kolonat. Kjo në përgjithësi funksionon mirë për të gjitha llojet e të dhënave në magazinë dhe mund të jetë burimi kryesor i së vërtetës për disa të dhëna të pastrukturuara, të tilla si të dhënat e mesazheve ose përmbajtja e përdoruesit.
  • Kolonat nga tabelat e prindërve mund të shënohen ose shënohen se përmbajnë të dhëna të caktuara dhe ne mund t'i gjurmojmë ato të dhëna në tabelat e fëmijëve.
  • Marrja e fijeve të ekzekutimit: fijet e ekzekutimit në Facebook mbajnë lloje specifike të të dhënave. Duke përdorur skanerin tonë si një arkitekturë shërbimi, ne mund të mostrojmë transmetime që kanë lloje të njohura të të dhënave dhe t'i dërgojmë ato përmes sistemit. Sistemi premton të mos i ruajë këto të dhëna.
  • Shembuj tabelash: Tabelat e mëdha të kosheres, të cilat dihet se përmbajnë të gjithë korpusin e të dhënave, mund të përdoren gjithashtu si të dhëna trajnimi dhe të kalojnë përmes skanerit si shërbim. Kjo është e shkëlqyeshme për tabelat me një gamë të plotë të llojeve të të dhënave, kështu që kampionimi i një kolone në mënyrë të rastësishme është i barabartë me marrjen e mostrave të të gjithë grupit të atij lloji të të dhënave.
  • Të dhëna sintetike: Ne madje mund të përdorim biblioteka që gjenerojnë të dhëna në fluturim. Kjo funksionon mirë për lloje të thjeshta të të dhënave publike si adresa ose GPS.
  • Kujdestarët e të dhënave: Programet e privatësisë zakonisht përdorin kujdestarë të të dhënave për të caktuar manualisht politika në pjesë të të dhënave. Kjo shërben si një burim shumë i saktë i së vërtetës.

Ne kombinojmë çdo burim kryesor të së vërtetës në një korpus me të gjitha ato të dhëna. Sfida më e madhe me vlefshmërinë është të siguroheni që ajo të jetë përfaqësuese e depove të të dhënave. Përndryshe, motorët e klasifikimit mund të stërviten. Për të luftuar këtë, të gjitha burimet e mësipërme përdoren për të siguruar ekuilibrin gjatë trajnimit të modeleve ose llogaritjes së metrikës. Për më tepër, etiketuesit njerëzorë kampionojnë në mënyrë uniforme kolona të ndryshme në depo dhe etiketojnë të dhënat në përputhje me rrethanat, në mënyrë që mbledhja e së vërtetës bazë të mbetet e paanshme.

Integrimi i vazhdueshëm

Për të siguruar përsëritje dhe përmirësim të shpejtë, është e rëndësishme që gjithmonë të matet performanca e sistemit në kohë reale. Ne mund të masim çdo përmirësim të klasifikimit kundrejt sistemit sot, kështu që mund të drejtojmë taktikisht përmirësimet e ardhshme bazuar në të dhëna. Këtu shikojmë se si sistemi plotëson ciklin e reagimit që sigurohet nga të dhënat e vlefshme.

Kur sistemi i planifikimit ndeshet me një aktiv që ka një etiketë nga një burim i besuar, ne planifikojmë dy detyra. I pari përdor skanerin tonë të prodhimit dhe si rrjedhim aftësitë tona të prodhimit. Detyra e dytë përdor skanerin më të fundit të ndërtimit me veçoritë më të fundit. Çdo detyrë shkruan rezultatet e saj në tabelën e vet, duke etiketuar versionet së bashku me rezultatet e klasifikimit.

Kështu krahasojmë rezultatet e klasifikimit të kandidatit të lëshimit dhe modelit të prodhimit në kohë reale.

Ndërsa grupet e të dhënave krahasojnë veçoritë RC dhe PROD, shumë variacione të motorit të klasifikimit ML të shërbimit të parashikimit janë regjistruar. Modeli më i fundit i të mësuarit të makinerive, modeli aktual në prodhim dhe çdo model eksperimental. E njëjta qasje na lejon të "pjekim" versione të ndryshme të modelit (agnostik për klasifikuesit tanë të rregullave) dhe të krahasojmë metrikat në kohë reale. Kjo e bën të lehtë përcaktimin se kur një eksperiment ML është gati për të hyrë në prodhim.

Çdo natë, veçoritë RC të llogaritura për atë ditë dërgohen në tubacionin e trajnimit ML, ku modeli trajnohet mbi veçoritë më të fundit RC dhe vlerëson performancën e tij kundrejt grupit të të dhënave të së vërtetës tokësore.

Çdo mëngjes, modeli përfundon stërvitjen dhe publikohet automatikisht si model eksperimental. Përfshihet automatikisht në listën eksperimentale.

Disa rezultate

Mbi 100 lloje të ndryshme të dhënash janë etiketuar me saktësi të lartë. Llojet e strukturuara mirë si emailet dhe numrat e telefonit klasifikohen me një rezultat f2 më të madh se 0,95. Llojet e të dhënave falas si përmbajtja dhe emri i krijuar nga përdoruesi gjithashtu performojnë shumë mirë, me rezultate F2 më të mëdha se 0,85.

Një numër i madh kolonash individuale të dhënash të qëndrueshme dhe të paqëndrueshme klasifikohen çdo ditë në të gjitha depot. Më shumë se 500 terabajt skanohen çdo ditë në më shumë se 10 depo të dhënash. Shumica e këtyre depove kanë mbi 98% mbulim.

Me kalimin e kohës, klasifikimi është bërë shumë efikas, me punët e klasifikimit në një transmetim të vazhdueshëm jashtë linje që zgjasin mesatarisht 35 sekonda nga skanimi i një aktivi deri te llogaritja e parashikimeve për secilën kolonë.

Klasifikimi i shkallëzueshëm i të dhënave për sigurinë dhe privatësinë
Oriz. 2. Diagrami që përshkruan rrjedhën e vazhdueshme të integrimit për të kuptuar se si objektet RC gjenerohen dhe dërgohen në model.

Klasifikimi i shkallëzueshëm i të dhënave për sigurinë dhe privatësinë
Figura 3. Diagrami i nivelit të lartë i një komponenti të mësimit të makinës.

Komponenti i sistemit të mësimit të makinerisë

Në seksionin e mëparshëm, ne bëmë një zhytje të thellë në arkitekturën e përgjithshme të sistemit, duke theksuar shkallën, optimizimin dhe rrjedhat e të dhënave offline dhe online. Në këtë seksion, ne do të shikojmë shërbimin e parashikimit dhe do të përshkruajmë sistemin e mësimit të makinerisë që fuqizon shërbimin e parashikimit.

Me mbi 100 lloje të dhënash dhe disa përmbajtje të pastrukturuara si të dhënat e mesazheve dhe përmbajtja e përdoruesit, përdorimi i heuristikës thjesht manuale rezulton në saktësinë e klasifikimit nënparametrik, veçanërisht për të dhënat e pastrukturuara. Për këtë arsye, ne kemi zhvilluar gjithashtu një sistem të mësimit të makinerive për t'u marrë me kompleksitetin e të dhënave të pastrukturuara. Përdorimi i mësimit të makinerive ju lejon të filloni të largoheni nga heuristika manuale dhe të punoni me veçori dhe sinjale shtesë të të dhënave (për shembull, emrat e kolonave, origjina e të dhënave) për të përmirësuar saktësinë.

Modeli i zbatuar studion paraqitjet vektoriale [3] mbi objekte të dendura dhe të rralla veçmas. Këto më pas kombinohen për të formuar një vektor, i cili kalon nëpër një seri normalizimi të grupit [4] dhe hapave të jolinearitetit për të prodhuar rezultatin përfundimtar. Rezultati përfundimtar është një numër me pikë lundruese ndërmjet [0-1] për çdo etiketë, duke treguar probabilitetin që shembulli i përket atij lloji ndjeshmërie. Përdorimi i PyTorch për modelin na lejoi të lëviznim më shpejt, duke lejuar zhvilluesit jashtë ekipit të bënin dhe testonin shpejt ndryshimet.

Gjatë projektimit të arkitekturës, ishte e rëndësishme të modeloheshin veçmas objektet e pakta (p.sh. teksti) dhe të dendura (p.sh. numerike) për shkak të dallimeve të tyre të qenësishme. Për arkitekturën përfundimtare, ishte gjithashtu e rëndësishme të kryhej një fshirje e parametrave për të gjetur vlerën optimale për shpejtësinë e mësimit, madhësinë e grupit dhe hiperparametrat e tjerë. Zgjedhja e optimizuesit ishte gjithashtu një hiperparametër i rëndësishëm. Ne zbuluam se një optimizues popullor Adamishpesh çon në mbipërshtatje, ndërsa një model me SGD më të qëndrueshme. Kishte nuanca shtesë që duhej t'i përfshinim drejtpërdrejt në model. Për shembull, rregullat statike që sigurojnë që modeli të bëjë një parashikim përcaktues kur një veçori ka një vlerë të caktuar. Këto rregulla statike përcaktohen nga klientët tanë. Ne zbuluam se përfshirja e tyre drejtpërdrejt në model rezultoi në një arkitekturë më të pavarur dhe më të fortë, në krahasim me zbatimin e një hapi pas përpunimit për të trajtuar këto raste të veçanta të skajeve. Vini re gjithashtu se këto rregulla çaktivizohen gjatë stërvitjes në mënyrë që të mos ndërhyjnë në procesin e trajnimit të zbritjes me gradient.

Problemet

Një nga sfidat ishte mbledhja e të dhënave me cilësi të lartë dhe të besueshme. Modeli ka nevojë për besim për secilën klasë në mënyrë që të mund të mësojë lidhjet midis objekteve dhe etiketave. Në pjesën e mëparshme, ne diskutuam metodat e mbledhjes së të dhënave si për matjen e sistemit ashtu edhe për trajnimin e modeleve. Analiza tregoi se klasat e të dhënave si numrat e kartave të kreditit dhe llogarive bankare nuk janë shumë të zakonshme në magazinë tonë. Kjo e bën të vështirë mbledhjen e sasive të mëdha të të dhënave të besueshme për të trajnuar modelet. Për të adresuar këtë çështje, ne kemi zhvilluar procese për marrjen e të dhënave sintetike të së vërtetës bazë për këto klasa. Ne gjenerojmë të dhëna të tilla për lloje të ndjeshme duke përfshirë SSN, numrat e kartës së kreditit и IBAN-numrat për të cilët modeli nuk mund të parashikonte më parë. Kjo qasje lejon që llojet e ndjeshme të të dhënave të përpunohen pa rreziqet e privatësisë që lidhen me fshehjen e të dhënave aktuale të ndjeshme.

Krahas çështjeve të së vërtetës tokësore, ka edhe çështje të hapura arkitekturore për të cilat po punojmë, si p.sh ndryshimi i izolimit и ndalesa e hershme. Izolimi i ndryshimit është i rëndësishëm për të siguruar që kur bëhen ndryshime të ndryshme në pjesë të ndryshme të rrjetit, ndikimi është i izoluar në klasa specifike dhe nuk ka një ndikim të gjerë në performancën e përgjithshme të parashikimit. Përmirësimi i kritereve të ndalimit të hershëm është gjithashtu kritik, në mënyrë që ne të mund të ndalojmë procesin e trajnimit në një pikë të qëndrueshme për të gjitha klasat, në vend që në një pikë ku disa klasa stërviten dhe të tjera jo.

Rëndësia e veçorisë

Kur një veçori e re futet në një model, ne duam të dimë ndikimin e saj të përgjithshëm në model. Ne duam gjithashtu të sigurohemi që parashikimet janë të interpretueshme nga njeriu, në mënyrë që të kuptojmë saktësisht se cilat veçori përdoren për çdo lloj të dhënash. Për këtë qëllim kemi zhvilluar dhe prezantuar sipas klasës rëndësia e veçorive për modelin PyTorch. Vini re se kjo është e ndryshme nga rëndësia e përgjithshme e veçorive, e cila zakonisht mbështetet, sepse nuk na tregon se cilat veçori janë të rëndësishme për një klasë të caktuar. Ne matim rëndësinë e një objekti duke llogaritur rritjen e gabimit të parashikimit pas riorganizimit të objektit. Një veçori është "e rëndësishme" kur shkëmbimi i vlerave rrit gabimin e modelit sepse në këtë rast modeli mbështetej në veçorinë për të bërë parashikimin e tij. Një tipar është "i parëndësishëm" kur ngatërrimi i vlerave të tij e lë gabimin e modelit të pandryshuar, pasi në këtë rast modeli e injoroi atë [5].

Rëndësia e veçorisë për secilën klasë na lejon ta bëjmë modelin të interpretueshëm në mënyrë që të shohim se çfarë shikon modeli kur parashikon një etiketë. Për shembull, kur analizojmë ADDR, atëherë garantojmë që shenja që lidhet me adresën, si p.sh Numri i Linjave të Adresave, renditet lart në tabelën e rëndësisë së veçorive për çdo klasë, në mënyrë që intuita jonë njerëzore të përputhet mirë me atë që modeli ka mësuar.

Vlerësim

Është e rëndësishme të përcaktohet një metrikë e vetme për sukses. Ne zgjedhim F2 - ekuilibri midis kujtimit dhe saktësisë (paragjykimi i rikujtimit është pak më i madh). Rikujtimi është më i rëndësishëm për një rast përdorimi të privatësisë sesa saktësia, sepse është thelbësore që ekipi të mos humbasë asnjë të dhënë të ndjeshme (duke siguruar saktësi të arsyeshme). Vlerësimi aktual i performancës F2 i modelit tonë është përtej qëllimit të këtij punimi. Megjithatë, me akordim të kujdesshëm mund të arrijmë rezultate të larta (0,9+) F2 për klasat më të rëndësishme të ndjeshme.

Pune e lidhur

Ka shumë algoritme për klasifikimin automatik të dokumenteve të pastrukturuara duke përdorur metoda të ndryshme si përputhja e modeleve, kërkimi i ngjashmërisë së dokumenteve dhe metoda të ndryshme të mësimit të makinerive (Bayesian, pemë vendimi, k-fqinjët më të afërt dhe shumë të tjera) [6]. Secila prej tyre mund të përdoret si pjesë e një klasifikimi. Megjithatë, problemi është shkallëzueshmëria. Qasja e klasifikimit në këtë artikull është e njëanshme drejt fleksibilitetit dhe performancës. Kjo na lejon të mbështesim klasa të reja në të ardhmen dhe të mbajmë latente të ulët.

Ka shumë punë edhe në marrjen e gjurmëve të të dhënave. Për shembull, autorët në [7] përshkruan një zgjidhje që fokusohet në problemin e kapjes së rrjedhjeve të ndjeshme të të dhënave. Supozimi themelor është se të dhënat mund të merren për t'i përshtatur ato me një grup të dhënash të njohura të ndjeshme. Autorët në [8] përshkruajnë një problem të ngjashëm të rrjedhjes së privatësisë, por zgjidhja e tyre bazohet në një arkitekturë specifike Android dhe klasifikohet vetëm nëse veprimet e përdoruesit rezultojnë në ndarjen e informacionit personal ose nëse aplikacioni themelor nxjerr të dhëna të përdoruesit. Situata këtu është disi e ndryshme sepse të dhënat e përdoruesit mund të jenë gjithashtu shumë të pastrukturuara. Prandaj, ne kemi nevojë për një teknikë më komplekse sesa marrja e gjurmëve të gishtërinjve.

Së fundi, për të përballuar mungesën e të dhënave për disa lloje të të dhënave të ndjeshme, ne prezantuam të dhëna sintetike. Ekziston një literaturë e madhe për shtimin e të dhënave, për shembull, autorët në [9] eksploruan rolin e injektimit të zhurmës gjatë trajnimit dhe vëzhguan rezultate pozitive në mësimin e mbikëqyrur. Qasja jonë ndaj privatësisë është e ndryshme sepse futja e të dhënave me zhurmë mund të jetë kundërproduktive dhe ne përqendrohemi në të dhëna sintetike me cilësi të lartë.

Përfundim

Në këtë punim, ne prezantuam një sistem që mund të klasifikojë një pjesë të të dhënave. Kjo na lejon të krijojmë sisteme për të zbatuar politikat e privatësisë dhe sigurisë. Ne kemi treguar se infrastruktura e shkallëzueshme, integrimi i vazhdueshëm, mësimi i makinerive dhe sigurimi i të dhënave me cilësi të lartë luajnë një rol kyç në suksesin e shumë prej nismave tona të privatësisë.

Ka shumë drejtime për punën e ardhshme. Kjo mund të përfshijë ofrimin e mbështetjes për të dhëna (skedarë) të pa skematizuara, klasifikimin jo vetëm të llojit të të dhënave, por edhe të nivelit të ndjeshmërisë, dhe përdorimin e mësimit të vetë-mbikëqyrur gjatë trajnimit duke gjeneruar shembuj të saktë sintetikë. E cila, nga ana tjetër, do të ndihmojë modelin të reduktojë humbjet në masën më të madhe. Puna e ardhshme mund të fokusohet gjithashtu në rrjedhën e punës së hetimit, ku ne shkojmë përtej zbulimit dhe sigurojmë analiza të shkaqeve rrënjësore të shkeljeve të ndryshme të privatësisë. Kjo do të ndihmojë në raste të tilla si analiza e ndjeshmërisë (p.sh. nëse ndjeshmëria e privatësisë së një lloji të dhënash është e lartë (p.sh. IP e përdoruesit) ose e ulët (p.sh. IP e brendshme e Facebook)).

Bibliografi

  1. David Ben-David, Tamar Domany dhe Abigail Tarem. Klasifikimi i të dhënave të ndërmarrjes duke përdorur teknologjitë semantike të uebit. Në Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks dhe Birte Glimm, redaktorë, Uebi Semantik – ISWC 2010, faqet 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang dhe Sanjeev Kumar. f4: Sistemi i ngrohtë i ruajtjes BLOB i Facebook. Në Simpoziumi i 11-të i USENIX mbi Dizajnimin dhe Zbatimin e Sistemeve Operative (OSDI 14), faqet 383–398, Broomfield, CO, tetor 2014. Shoqata USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado dhe Jeff Dean. Paraqitje të shpërndara të fjalëve dhe frazave dhe përbërjes së tyre. Në C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani dhe K. Q. Weinberger, redaktorë, Përparimet në Sistemet e Përpunimit të Informacionit Neural 26, faqet 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe dhe Christian Szegedy. Normalizimi i grupit: Përshpejtimi i trajnimit të thellë të rrjetit duke reduktuar zhvendosjen e brendshme të variateteve. Në Francis Bach dhe David Blei, redaktorë, Punimet e Konferencës së 32-të Ndërkombëtare për Mësimin e Makinerisë, vëllimi 37 i Procedurat e Kërkimit të Mësimit të Makinerisë, faqet 448–456, Lille, Francë, 07–09 korrik 2015. PMLR.
  5. Leo Breiman. Pyjet e rastësishme. Mach. Mësoni., 45 (1): 5–32, tetor 2001.
  6. Thair Nu Phyu. Anketa e teknikave të klasifikimit në të dhënat e minierave.
  7. X. Shu, D. Yao dhe E. Bertino. Zbulimi i ruajtjes së privatësisë së ekspozimit të të dhënave të ndjeshme. Transaksionet IEEE mbi Forenzikën dhe Sigurinë e Informacionit, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning dhe Xiaoyang Wang. Përcaktimi: Analizimi i transmetimit të të dhënave të ndjeshme në android për zbulimin e rrjedhjeve të privatësisë. faqet 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong dhe Quoc V. Le. Shtim i pambikëqyrur i të dhënave.

Klasifikimi i shkallëzueshëm i të dhënave për sigurinë dhe privatësinë
Zbuloni detaje se si të merrni një profesion të kërkuar nga e para ose Level Up për sa i përket aftësive dhe pagës duke ndjekur kurse online të SkillFactory:

Më shumë kurse

Burimi: www.habr.com

Shto një koment