Classificazione di dati scalabile per a sicurità è a privacy

Classificazione di dati scalabile per a sicurità è a privacy

A classificazione di dati basatu in cuntenutu hè un prublema apertu. I sistemi tradiziunali di prevenzione di a perdita di dati (DLP) risolvenu stu prublema cù l'impronta digitale di e dati pertinenti è u monitoraghju di i punti finali per l'impronta digitale. Data u gran numaru di risorse di dati chì cambianu constantemente in Facebook, questu approcciu ùn hè micca solu micca scalabile, ma ancu inefficace per determinà induve residenu i dati. Stu documentu si focalizeghja nantu à un sistema end-to-end custruitu per detectà tippi semantici sensittivi in ​​Facebook à scala è rinfurzà automaticamente u almacenamentu di dati è u cuntrollu di l'accessu.

L'approcciu descrittu quì hè u nostru primu sistema di privacy end-to-end chì prova di risolve stu prublema incorporendu segnali di dati, apprendimentu automaticu è tecniche tradiziunali di impronte digitali per cartografia è classificà tutte e dati in Facebook. U sistema descrittu hè operatu in un ambiente di produzzione, ottenendu un puntuatu mediu F2 di 0,9+ in diverse classi di privacy mentre trasfurmendu una grande quantità di risorse di dati in decine di repository. Introducendu una traduzzione di u paper ArXiv di Facebook nantu à a classificazione di dati scalabile per a sicurità è a privacy basata nantu à l'apprendimentu machine.

Introduzione

Oghje, l'urganisazione cullighjanu è almacenanu una grande quantità di dati in una varietà di formati è locu [1], allora i dati sò cunsumati in parechji lochi, qualchì volta copiati o cached parechje volte, risultatu in una infurmazione preziosa è sensibile di l'affari chì hè spargugliata in parechje dati di l'impresa. magazzini. Quandu una urganizazione hè obligata à risponde à certi requisiti legali o regulatori, cum'è u rispettu di i rigulamenti in i prucessi civili, hè necessariu di cullà e dati nantu à u locu di e dati richiesti. Quandu un regulamentu di privacy stabilisce chì una urganizazione deve maschera tutti i Numeri di Sicurezza Soziale (SSN) quandu sparte infurmazioni persunali cù entità micca autorizate, u primu passu naturali hè di circà tutti i SSN in i magazzini di dati di l'urganizazione. In tali circustanze, a classificazione di dati diventa critica [1]. U sistema di classificazione permetterà à l'urganisazione di rinfurzà automaticamente e pulitiche di privacy è di sicurità, cum'è l'attivazione di e pulitiche di cuntrollu di l'accessu, a retenzioni di dati. Facebook hà introduttu un sistema chì avemu custruitu in Facebook chì usa parechje segnali di dati, architettura di sistema scalabile, è apprendimentu automaticu per scopre tipi di dati semantichi sensittivi.

A scuperta è a classificazione di dati hè u prucessu di truvà è etichettatura di dati in modu chì l'infurmazioni pertinenti ponu esse recuperate rapidamente è in modu efficiente quandu hè necessariu. U prucessu attuale hè piuttostu manuali in natura è cunsiste in esaminà e leggi o rigulamenti pertinenti, determinendu chì tippi d'infurmazioni devenu esse cunsiderati sensibili è quali sò i diversi livelli di sensibilità, è poi custruisce classi è pulitiche di classificazione in cunseguenza [1]. A prevenzione di perdita di dati (DLP) poi impronte digitali i dati è monitora i punti finali downstream per ottene impronte digitali. Quandu si tratta di un magazzinu pesante d'assi cù petabytes di dati, stu approcciu simpricimenti ùn scala micca.

U nostru scopu hè di custruisce un sistema di classificazione di dati chì scala à i dati di l'utilizatori robusti è transitori, senza restrizioni supplementari à u tipu o furmatu di dati. Questu hè un scopu audace, è naturalmente vene cun sfide. Un data record di dati pò esse longu millaie di caratteri.

Classificazione di dati scalabile per a sicurità è a privacy
Figura 1. Flussi di previsione in linea è offline

Dunque, duvemu rapprisintà in modu efficiente utilizendu un inseme cumuni di funzioni chì ponu esse cumminati più tardi è facilmente spustate. Queste caratteristiche ùn deve micca solu furnisce una classificazione precisa, ma ancu furnisce flessibilità è estensibilità per aghjunghje facilmente è scopre novi tipi di dati in u futuru. Siconda, avete bisognu di trattà cù grandi tavule offline. I dati durable ponu esse guardati in tavule chì sò assai petabytes in grandezza. Questu pò esse risultatu in una velocità di scansione più lenta. Terzu, duvemu aderisce à una stretta classificazione SLA nantu à dati volatili. Questu forza u sistema per esse altamente efficiente, veloce è precisu. Infine, duvemu furnisce una classificazione di dati di bassa latenza per i dati volatili per eseguisce a classificazione in tempu reale è ancu per i casi d'usu di Internet.

Stu documentu descrive cumu avemu trattatu cù e sfide sopra è presenta un sistema di classificazione veloce è scalabile chì classifica elementi di dati di tutti i tipi, formati è fonti basatu annantu à un inseme cumuni di funzioni. Avemu allargatu l'architettura di u sistema è creatu un mudellu di apprendimentu automaticu persunalizatu per classificà rapidamente e dati offline è in linea. Stu documentu hè urganizatu cum'è seguente: Section 2 presenta u disignu generale di u sistema. A Sezione 3 discute e parti di un sistema di apprendimentu machine. E sezioni 4 è 5 mette in risaltu u travagliu cunnessu è delineanu e direzioni future di u travagliu.

architettura

Per affruntà i sfidi di dati in linea persistenti è in scala di Facebook, u sistema di classificazione hà dui flussi separati, chì discutemu in detail.

Dati sustinibili

Inizialmente, u sistema deve amparà nantu à i numerosi assi d'infurmazioni di Facebook. Per ogni repository, una certa infurmazione basica hè recullata, cum'è u centru di dati chì cuntene quella data, u sistema chì cuntene quella data, è l'assi situati in u repositoriu di dati specificu. Questu crea un catalogu di metadati chì permette à u sistema di ricuperà in modu efficiente e dati senza sovraccaricare i clienti è e risorse utilizati da altri ingegneri.

Stu catalogu di metadati furnisce una fonte autorità per tutti l'assi scannati è vi permette di seguità u statutu di diversi assi. Utilizendu sta informazione, a priorità di pianificazione hè stabilita basatu annantu à i dati raccolti è l'infurmazioni internu da u sistema, cum'è u tempu chì l'assetu hè statu scansatu l'ultima volta è l'ora hè stata creata, è ancu a memoria passata è i requisiti di CPU per quellu attivu se hè statu scansatu prima. Allora, per ogni risorsa di dati (cum'è e risorse diventanu dispunibili), un travagliu hè chjamatu per scansà a risorsa.

Ogni travagliu hè un schedariu binariu compilatu chì eseguisce Bernoulli sampling nantu à l'ultimi dati dispunibuli per ogni attivu. L'attivu hè divisu in colonne individuali, induve u risultatu di classificazione di ogni colonna hè processatu indipindente. Inoltre, u sistema scansa per qualsiasi dati saturati in e colonne. JSON, arrays, strutture codificate, URL, dati seriali di basa 64, è più sò tutti scannati. Questu pò aumentà significativamente u tempu di esecuzione di scansione perchè una sola tavola pò cuntene millaie di colonne nidificate in un blob json.

Per ogni fila chì hè sceltu in l'attivu di dati, u sistema di classificazione estrae l'uggetti di u float è u testu da u cuntenutu è assucia ogni ughjettu torna à a colonna da quale hè stata presa. L'output di u passu di estrazione di funziunalità hè una mappa di tutte e caratteristiche per ogni colonna truvata in l'asset di dati.

Chì sò i segni per ?

U cuncettu di attributi hè chjave. Invece di tratti di float è testu, pudemu passà campioni di corda cruda chì sò direttamente estratti da ogni risorsa di dati. Inoltre, i mudelli di l'apprendimentu di macchina ponu esse furmatu direttamente nantu à ogni mostra, piuttostu cà centinaie di calculi di funziunalità chì solu pruvate d'approssimarà a mostra. Ci hè parechje ragioni per questu:

  1. A privacy prima: U più impurtante, u cuncettu di funziunalità ci permette di almacenà in memoria solu quelli mudelli chì ritruvemu. Questu assicura chì almacenemu i campioni per un unicu scopu è ùn li mai loggamu cù i nostri sforzi. Questu hè particularmente impurtante per i dati volatili, postu chì u serviziu deve mantene un statu di classificazione prima di furnisce una predizione.
  2. Memoria: Certi campioni ponu esse migghiara di caratteri longu. L'almacenamiento di tali dati è a trasmissione à parti di u sistema cunsuma inutilmente parechji byte supplementari. I dui fattori ponu cumminà cù u tempu, datu chì ci sò parechje risorse di dati cù millaie di culonni.
  3. Aggregazione di funzioni: E caratteristiche rapprisentanu chjaramente i risultati di ogni scansione attraversu un inseme di funzioni, chì permettenu à u sistema di cumminà i risultati di scans precedenti di a stessa risorsa di dati in un modu convenientu. Questu pò esse utile per aggregate risultati di scansione da una sola risorsa di dati in parechje run.

I funziunalità sò poi mandati à un serviziu di prediczione induve usemu a classificazione basata in e regule è l'apprendimentu automaticu per predice l'etichette di dati di ogni colonna. U serviziu si basa nantu à i classificatori di regule è l'apprendimentu automaticu è selezziunate a megliu predizione data da ogni ughjettu di predizione.

I classificatori di regula sò heuristici manuali, utilizanu calculi è coefficienti per nurmalizà un ughjettu à un intervallu di 0 à 100. Una volta chì un puntu iniziale tali hè generatu per ogni tipu di dati è nome di colonna assuciatu cù quella dati, ùn hè micca inclusu in ogni "ban". elenchi ", U classificatore di règule selezziunate u puntu più altu nurmalizatu trà tutti i tipi di dati.

A causa di a cumplessità di a classificazione, s'appoghjanu solu nantu à euristiche manuali risultati in una precisione di classificazione bassa, in particulare per e dati non strutturati. Per questu mutivu, avemu sviluppatu un sistema di apprendimentu machine à travaglià cù a classificazione di dati micca strutturati cum'è u cuntenutu di l'utilizatori è l'indirizzu. L'apprendimentu di a macchina hà permessu di cumincià à alluntanassi da l'euristica manuale è applicà segnali di dati supplementari (per esempiu, nomi di colonna, provenienza di dati), migliurà significativamente a precisione di rilevazione. Immergeremu in profondità in a nostra architettura di apprendimentu automaticu più tardi.

U serviziu di prediczione guarda i risultati per ogni colonna cù metadata riguardanti u tempu è u statu di a scansione. Ogni cunsumatori è prucessi downstream chì dependenu di sta dati ponu leghje da u dataset publicatu ogni ghjornu. Stu settore aggrega i risultati di tutti questi travaglii di scansione, o API di Catalogu di Dati in Tempu Reale. E previsioni publicate sò a basa per l'applicazione automatica di e pulitiche di privacy è di sicurità.

Infine, dopu chì u serviziu di previsione scrive tutte e dati è tutte e previsioni sò almacenate, a nostra Data Catalog API pò rinvià tutte e previsioni di u tipu di dati per a risorsa in tempu reale. Ogni ghjornu u sistema publica un inseme di dati chì cuntene tutte l'ultime previsioni per ogni attivu.

Dati volatili

Mentre u prucessu di sopra hè pensatu per l'assi persistenti, u trafficu non persistente hè ancu cunsideratu parte di e dati di l'urganizazione è pò esse impurtante. Per quessa, u sistema furnisce una API in linea per generà predizioni di classificazione in tempu reale per ogni trafficu intermittente. U sistema di previsione in tempu reale hè largamente utilizatu per classificà u trafficu in uscita, u trafficu in entrata in mudelli d'apprendimentu di machine è dati di l'annunciatori.

Quì l'API piglia dui argumenti principali: a chjave di raggruppamentu è e dati prima chì deve esse preditu. U serviziu eseguisce a stessa ricuperazione di l'ughjettu cum'è descritta sopra è raggruppa l'uggetti inseme per a stessa chjave. Queste caratteristiche sò ancu supportate in a cache di persistenza per a ricuperazione di fallimentu. Per ogni chjave di raggruppamentu, u serviziu assicura chì hà vistu abbastanza mostri prima di chjamà u serviziu di prediczione, seguitu u prucessu deskrittu sopra.

Ottimizazione

Per scansà certi magazzini, usemu biblioteche è tecniche per ottimisà a lettura da l'almacenamiento caldu [2] è assicurà chì ùn ci sò micca disturbi da altri utilizatori chì accedenu à u stessu almacenamiento.

Per tavule estremamente grande (50+ petabytes), malgradu tutte l'ottimisazioni è l'efficienza di a memoria, u sistema travaglia per scansà è calculà tuttu prima di scappà di memoria. Dopu tuttu, a scansione hè calculata interamente in memoria è ùn hè micca almacenata durante a scansione. Se i grandi tavulini cuntenenu millaie di culonni cù clumps di dati non strutturati, u travagliu pò fallu per via di risorse di memoria insufficiente quandu eseguisce predizioni nantu à a tavola sana. Questu risultatu in una cobertura ridutta. Per cumbatte questu, avemu ottimisatu u sistema per utilizà a velocità di scansione cum'è un proxy per quantu u sistema gestisce a carica di travagliu attuale. Utilizemu a velocità cum'è un mecanismu predittivu per vede i prublemi di memoria è calculà predittivamente a mappa di funzioni. À u listessu tempu, usemu menu dati di u solitu.

Segnali di dati

Un sistema di classificazione hè solu bè cum'è i signali da i dati. Quì avemu vistu tutti i signali usati da u sistema di classificazione.

  • Cuntenutu Basatu: Di sicuru, u primu è u più impurtante signalu hè u cuntenutu. U campionamentu di Bernoulli hè realizatu nantu à ogni attivu di dati chì scansemu è estrattemu funzioni basati nantu à u cuntenutu di dati. Parechji segni venenu da u cuntenutu. Ogni quantità di oggetti flottanti sò pussibuli, chì rapprisentanu calculi di quante volte un tipu di mostra particulari hè statu vistu. Per esempiu, pudemu avè signali di u numeru di e-mail vistu in una mostra, o segni di quantu emojis sò vistu in una mostra. Questi calculi di funziunalità ponu esse nurmalizzati è aggregati in diverse scans.
  • Pruvendenza di dati: Un signalu impurtante chì pò aiutà quandu u cuntenutu hà cambiatu da a tavola parent. Un esempiu cumuni hè hashed data. Quandu i dati in una tavola di u zitellu sò hashed, spessu venenu da a tavola parent, induve ferma in u chjaru. I dati di linea aiutanu à classificà certi tipi di dati quandu ùn sò micca leghje chjaramente o sò cunvertiti da una tavola upstream.
  • Annotations: Un altru signale di alta qualità chì aiuta à identificà e dati micca strutturati. In fatti, l'annotazioni è e dati di provenienza ponu travaglià inseme per propagà l'attributi in diversi assi di dati. L'annotazioni aiutanu à identificà a fonte di dati non strutturati, mentre chì i dati di linea pò aiutà à seguità u flussu di quelli dati in tuttu u repository.
  • L'iniezione di dati hè una tecnica induve i caratteri speciali, illeggibili sò intenzionalmente intrudutti in fonti cunnisciute di tipi di dati cunnisciuti. Allora, ogni volta chì scansemu u cuntenutu cù a listessa sequenza di caratteri illegibile, pudemu inferisce chì u cuntenutu vene da quellu tipu di dati cunnisciutu. Questu hè un altru signale di dati qualitativi simili à l'annotazioni. Eccettu chì a rilevazione basata in u cuntenutu aiuta à scopre i dati inseriti.

Metriche di misura

Un cumpunente impurtante hè una metodulugia rigurosa per a misurazione di metrica. I metrici principali per l'iterazione di migliione di classificazione sò a precisione è u ricurdamentu di ogni etichetta, cù u puntu F2 hè u più impurtante.

Per calculà queste metriche, hè necessaria una metodulugia indipendente per l'etichettatura di l'assi di dati chì hè indipendente da u sistema stessu, ma pò esse aduprata per paragunà diretta cun ellu. Sottu avemu discrivamu cumu avemu cullà a verità di terra da Facebook è aduprà à furmà u nostru sistema di classificazione.

Raccolta di dati affidabili

Accumulemu dati affidabili da ogni fonte listata quì sottu in a so propria tabella. Ogni tavula hè rispunsevule per aggregate l'ultimi valori osservati da quella fonte particulare. Ogni fonte hà cuntrolli di qualità di dati per assicurà chì i valori osservati per ogni fonte sò di alta qualità è cuntenenu l'ultime etichette di tipu di dati.

  • Cunfigurazioni di a piattaforma di logging: Certi campi in i tavulini di l'alveare sò populati cù dati chì sò di un tipu specificu. L'usu è a diffusione di sta dati serve com'è una fonte affidabile di verità.
  • Etichettatura manuale: I sviluppatori chì mantenenu u sistema è l'etichettatori esterni sò furmati per etichettate e colonne. Questu generalmente funziona bè per tutti i tipi di dati in u magazzinu, è pò esse a fonte primaria di verità per qualchi dati micca strutturati, cum'è dati di messagiu o cuntenutu di l'utilizatori.
  • I culonni da e tavule parenti ponu esse marcati o annotati cum'è cuntenenu certi dati, è pudemu seguità quelli dati in i tavule di i zitelli.
  • Recuperazione di fili di esecuzione: i fili di esecuzione in Facebook portanu tipi specifichi di dati. Utilizendu u nostru scanner cum'è una architettura di serviziu, pudemu campionà flussi chì anu cunnisciuti tipi di dati è mandà à traversu u sistema. U sistema prumette micca di almacenà sta dati.
  • Sample tables: Large hive tables, chì sò cunnisciuti per cuntene tuttu u corpu di dati, pò ancu esse usatu cum'è dati di furmazione è passati per u scanner cum'è serviziu. Questu hè grande per e tavule cù una gamma completa di tippi di dati, perchè u campionamentu di una colonna à l'aleatoriu hè equivalente à u campionamentu di tuttu u settore di quellu tipu di dati.
  • Dati sintetici: Pudemu ancu aduprà biblioteche chì generanu dati nantu à a mosca. Questu funziona bè per i tipi di dati publichi simplici, cum'è un indirizzu o GPS.
  • Data Stewards: I prugrammi di privacy generalmente utilizanu stewards di dati per assignà manualmente pulitiche à pezzi di dati. Questu serve com'è una fonte assai precisa di verità.

Cumbinemu ogni fonte maiò di verità in un corpus cù tutti quelli dati. U più grande sfida cù a validità hè di assicurà chì hè rappresentante di u repositoriu di dati. Altrimenti, i motori di classificazione ponu overtrain. Per cumbatte questu, tutte e fonti di sopra sò utilizzate per assicurà l'equilibriu quandu i mudelli di furmazione o calculanu metrica. Inoltre, l'etichettatori umani mostranu uniformi diverse colonne in u repository è etichettanu i dati in modu cusì chì a cullizzioni di a verità di terra ferma imparziale.

Integrazione Cuntinuu

Per assicurà l'iterazione rapida è a migliione, hè impurtante sempre misurà u rendiment di u sistema in tempu reale. Pudemu misurà ogni migliione di classificazione contru à u sistema oghje, cusì pudemu guidà tatticamenti i migliuramenti futuri basati nantu à e dati. Quì avemu vistu cumu u sistema cumpleta u ciclu di feedback chì hè furnitu da dati validi.

Quandu u sistema di pianificazione scontra un attivu chì hà una etichetta da una fonte di fiducia, pianificemu duie attività. U primu usa u nostru scanner di pruduzzione è cusì e nostre capacità di produzzione. U secondu compitu usa l'ultime scanner di custruzzione cù l'ultime funzioni. Ogni compitu scrive u so output à a so propria tavula, tagghjendu versioni cù i risultati di classificazione.

Questu hè cumu paragunemu i risultati di classificazione di u candidatu di liberazione è u mudellu di produzzione in tempu reale.

Mentre i datasets paragunanu e funzioni RC è PROD, parechje variazioni di u mutore di classificazione ML di u serviziu di prediczione sò registrate. U mudellu di apprendimentu automaticu più recente custruitu, u mudellu attuale in produzzione, è qualsiasi mudelli sperimentali. U listessu approcciu ci permette di "slice" diverse versioni di u mudellu (agnosticu à i nostri classificatori di regula) è paragunate metriche in tempu reale. Questu facilita a determinazione di quandu un esperimentu ML hè prontu per andà in produzzione.

Ogni notte, i funziunalità RC calculate per quellu ghjornu sò mandati à u pipeline di furmazione ML, induve u mudellu hè furmatu nantu à l'ultime funzioni RC è evaluate u so rendimentu contru à a data di a verità di terra.

Ogni matina, u mudellu compie a furmazione è hè publicatu automaticamente cum'è un mudellu sperimentale. Hè automaticamente inclusu in a lista sperimentale.

Certi risultati

Più di 100 tippi diffirenti di dati sò etichettati cù alta precisione. Tipi ben strutturati, cum'è e-mail è numeri di telefunu, sò classificati cù un puntu f2 più grande di 0,95. Tipi di dati gratuiti cum'è u cuntenutu generatu da l'utilizatori è u nome funziona ancu assai bè, cù punteggi F2 più grande di 0,85.

Un gran numaru di colonne individuali di dati persistenti è volatili sò classificate ogni ghjornu in tutti i repositori. Più di 500 terabyte sò scannati ogni ghjornu in più di 10 magazzini di dati. A maiò parte di sti repositori anu una copertura di più di 98%.

À u tempu, a classificazione hè diventata assai efficace, cù i travaglii di classificazione in un flussu offline persistente chì piglianu una media di 35 seconde da a scansione di un attivu à u calculu di predizioni per ogni colonna.

Classificazione di dati scalabile per a sicurità è a privacy
Risu. 2. Diagramma chì descrive u flussu di integrazione cuntinuu per capiscenu cumu l'uggetti RC sò generati è mandati à u mudellu.

Classificazione di dati scalabile per a sicurità è a privacy
Figura 3. Diagramma d'altu livellu di un cumpunente d'apprendimentu machine.

Cumpunente di u sistema di apprendimentu di macchina

In a sezione precedente, avemu fattu una immersione profonda in l'architettura generale di u sistema, mettendu in risaltu scala, ottimisazione è flussi di dati offline è in linea. In questa sezione, guardemu u serviziu di previsione è descrive u sistema di apprendimentu di macchina chì alimenta u serviziu di previsione.

Cù più di 100 tippi di dati è qualchì cuntenutu micca strutturatu, cum'è i dati di messagiu è u cuntenutu di l'utilizatori, l'usu di l'euristiche puramente manuale si traduce in una precisione di classificazione subparametrica, in particulare per i dati non strutturati. Per questu mutivu, avemu ancu sviluppatu un sistema d'apprendimentu di macchina per trattà cù e cumplessità di dati micca strutturati. Utilizà l'apprendimentu di a macchina permette di cumincià à alluntanassi da l'euristica manuale è di travaglià cù funzioni è signali di dati supplementari (per esempiu, nomi di colonna, origine di dati) per migliurà a precisione.

U mudellu implementatu studia rapprisentazioni vettoriali [3] sopra oggetti densi è sparsi separatamente. Questi sò allora cumminati per furmà un vettore, chì passa per una seria di normalizazione di batch [4] è passi di non-linearità per pruduce u risultatu finali. U risultatu finali hè un numeru in virgule flottante trà [0-1] per ogni etichetta, chì indica a probabilità chì l'esempiu appartene à quellu tipu di sensibilità. Utilizà PyTorch per u mudellu ci hà permessu di trasfurmà più veloce, chì permette à i sviluppatori fora di a squadra di fà rapidamente è pruvà cambiamenti.

Quandu u disignu di l'architettura, era impurtante di mudificà l'oggetti sparsi (per esempiu, testu) è densi (per esempiu numerichi) separatamente per via di e so differenzi inherenti. Per l'architettura finale, era ancu impurtante di realizà una spazzata di paràmetri per truvà u valore ottimale per a tarifa di apprendimentu, a dimensione di batch è altri iperparametri. L'scelta di l'ottimisatore era ancu un iperparametru impurtante. Avemu trovu chì un ottimisatore populari Adamspessu porta à overfitting, mentri un mudellu cù MXN più stabile. Ci era sfumature supplementari chì avemu avutu da include direttamente in u mudellu. Per esempiu, regule statiche chì assicuravanu chì u mudellu faci una prediczione deterministica quandu una funzione hà un certu valore. Queste regule statiche sò definite da i nostri clienti. Avemu trovu chì l'incorpore direttamente in u mudellu hà risultatu in una architettura più autonoma è robusta, invece di implementà un passu di post-processamentu per trattà questi casi di punta speciale. Innota ancu chì sti reguli sò disattivati ​​durante a furmazione per ùn interferiscenu micca cù u prucessu di furmazione di discendenza di gradiente.

Problemi

Una di e sfide era a cullizzioni di dati affidabili di alta qualità. U mudellu hà bisognu di cunfidenza per ogni classa per pudè amparà associazioni trà l'uggetti è l'etichette. In a sezione precedente, avemu discututu i metudi di cullizzioni di dati per a misurazione di u sistema è a furmazione di mudelli. L'analisi hà dimustratu chì e classi di dati cum'è i numeri di carte di creditu è ​​di contu bancariu ùn sò micca assai cumuni in u nostru magazzinu. Questu rende difficiuli di cullà grandi quantità di dati affidabili per furmà mudelli. Per affruntà stu prublema, avemu sviluppatu prucessi per ottene dati sintetici di verità di terra per queste classi. Generemu tali dati per i tipi sensibili cumpresi NHS, numeri di carta di creditu и IBAN-numeri per i quali u mudellu ùn pudia micca predichendu prima. Stu approcciu permette à i tippi di dati sensittivi per esse trattatu senza i risichi di privacy assuciati à ammuccià i dati sensibili attuali.

In più di i prublemi di a verità di terra, ci sò prublemi architettonici aperti chì avemu travagliatu, cum'è cambià l'isolamentu и fermata prima. L'isolamentu di u cambiamentu hè impurtante per assicurà chì quandu diverse cambiamenti sò fatti in diverse parti di a rete, l'impattu hè isolatu à classi specifiche è ùn hà micca un impattu largu nantu à u rendiment di previsione generale. A migliurà i criterii di arrestu precoce hè ancu criticu per chì pudemu piantà u prucessu di furmazione in un puntu stabile per tutte e classi, piuttostu cà in un puntu induve certi classi overtrain è altri micca.

Funzione impurtanza

Quandu una nova funzione hè introdutta in un mudellu, vulemu sapè u so impattu generale nantu à u mudellu. Vulemu ancu assicurà chì e predizioni sò interpretabili umani in modu chì pudemu capisce esattamente ciò chì caratteristiche sò aduprate per ogni tipu di dati. Per questu scopu avemu sviluppatu è introduttu per classe impurtanza di e funziunalità per u mudellu PyTorch. Innota chì questu hè sfarente di l'impurtanza generale di e funzioni, chì hè di solitu supportata, perchè ùn ci dice micca chì caratteristiche sò impurtanti per una classe particulare. Misuremu l'impurtanza di un ughjettu calculendu l'aumentu di l'errore di prediczione dopu à riarrangiatu l'ughjettu. Una funzione hè "impurtante" quandu scambià i valori aumenta l'errore di u mudellu perchè in questu casu, u mudellu si basava nantu à a funzione per fà a so prediczione. Una funzione hè "impurtante" quandu si mischia i so valori lascia l'errore di mudellu invariatu, postu chì in questu casu u mudellu l'ignora [5].

L'impurtanza di a funzione per ogni classa ci permette di fà u mudellu interpretabile in modu chì pudemu vede ciò chì u mudellu guarda quandu predice una etichetta. Per esempiu, quandu avemu analizà ADDR, tandu guarantimu chì u segnu assuciatu cù l'indirizzu, cum'è AddressLinesCount, classifica altu in a tabella di impurtanza di funziunalità per ogni classa per chì a nostra intuizione umana currisponde bè cù ciò chì u mudellu hà amparatu.

valutati

Hè impurtante di definisce una sola metrica per successu. Avemu sceltu F2 - equilibriu trà u ricordu è a precisione (u bias di ricurdà hè un pocu più grande). U ricurdamentu hè più impurtante per un casu d'usu di privacy chì a precisione, perchè hè criticu per a squadra di ùn mancassi alcuna data sensitiva (mentre assicurendu una precisione raghjone). L'attuali valutazione di u rendiment F2 di u nostru mudellu hè fora di u scopu di stu documentu. Tuttavia, cù una sintonizazione curretta, pudemu ottene punteggi F0,9 elevati (2+) per e classi sensibili più impurtanti.

Travagliu cunnessu

Ci hè parechje algoritmi per a classificazione automatica di documenti non strutturati chì utilizanu varii metudi, cum'è a cuncordanza di mudelli, a ricerca di similarità di documentu è parechji metudi di machine learning (Bayesian, arburi di decisione, k-vicini più vicini è assai altri) [6]. Qualchese di questi pò esse usatu cum'è parte di una classificazione. Tuttavia, u prublema hè a scalabilità. L'approcciu di classificazione in questu articulu hè biased versu a flessibilità è u rendiment. Questu ci permette di sustene novi classi in u futuru è mantene a latenza bassa.

Ci hè ancu assai travagliu nantu à e impronte digitali di dati. Per esempiu, l'autori in [7] hà descrittu una suluzione chì si focalizeghja nantu à u prublema di catturà fughe di dati sensibili. L'assunzione sottostante hè chì e dati ponu esse impronte digitali per currisponde à un settore di dati sensibili cunnisciuti. L'autori in [8] descrizanu un prublema simili di a fuga di privacy, ma a so suluzione hè basatu annantu à una architettura Android specifica è hè classificatu solu se l'azzioni di l'utilizatori risultatu in u sparte di l'infurmazioni persunali o se l'applicazione sottostante filtra dati di l'utilizatori. A situazione quì hè un pocu sfarente perchè i dati di l'utilizatori ponu ancu esse assai destrutturati. Per quessa, avemu bisognu di una tecnica più cumplessa di l'impronta digitale.

Infine, per affruntà a mancanza di dati per certi tipi di dati sensittivi, avemu introduttu dati sintetici. Ci hè un grande corpu di letteratura nantu à l'aumentu di dati, per esempiu, l'autori in [9] anu esploratu u rolu di l'iniezione di rumore durante a furmazione è anu osservatu risultati pusitivi in ​​l'apprendimentu supervisatu. U nostru approcciu à a privacy hè diversu perchè l'introduzione di dati rumorosi pò esse contraproducente, è invece focalizemu nantu à dati sintetici di alta qualità.

cunchiusioni

In questu articulu, avemu prisentatu un sistema chì pò classificà un pezzu di dati. Questu ci permette di creà sistemi per rinfurzà e pulitiche di privacy è di sicurità. Avemu dimustratu chì l'infrastruttura scalabile, l'integrazione cuntinua, l'apprendimentu di macchina è l'assicuranza di dati di alta qualità ghjucanu un rolu chjave in u successu di parechje di e nostre iniziative di privacy.

Ci sò parechje direzzione per u travagliu futuru. Questu pò include furnisce un supportu per dati micca schematizzati (fichi), classificà micca solu u tipu di dati, ma ancu u livellu di sensibilità, è l'usu di l'apprendimentu autosupervisatu durante a furmazione generendu esempi sintetici precisi. Chì, à u turnu, aiuterà u mudellu à riduce e perdite da a più grande quantità. U travagliu futuru puderia ancu fucalizza nantu à u flussu di travagliu di l'investigazione, induve andemu oltre a rilevazione è furnisce l'analisi di e cause di e diverse violazioni di privacy. Questu aiuterà in casi cum'è l'analisi di sensibilità (per esempiu, se a sensibilità di a privacy di un tipu di dati hè alta (per esempiu, l'IP d'utilizatore) o bassa (per esempiu, l'IP interna di Facebook)).

Bibliografia

  1. David Ben-David, Tamar Domany, è Abigail Tarem. Classificazione di dati di l'impresa utilizendu tecnulugia web semantica. In Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, è Birte Glimm, editori, U Web Semanticu - ISWC 2010, pagine 66-81, Berlinu, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang è Sanjeev Kumar. f4: u sistema di almacenamentu BLOB di Facebook. In 11u Simposiu USENIX nantu à u Cuncepimentu è l'Implementazione di Sistemi Operativi (OSDI 14), pagine 383-398, Broomfield, CO, ottobre 2014. Associazione USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, è Jeff Dean. Rapprisintazioni distribuite di parolle è frasi è a so cumpusizioni. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, è K. Q. Weinberger, editori, Avanzate in i Sistemi di Trattamentu di l'Informazione Neurale 26, pagine 3111-3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe è Christian Szegedy. Normalizazione di batch: Accelerà a furmazione di rete profonda riducendu u cambiamentu di covariate interna. In Francis Bach è David Blei, editori, Proceedings of the 32nd International Conference on Machine Learning, volume 37 di Proceedings of Machine Learning Research, pagine 448–456, Lille, Francia, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Foreste casuali. Mach. Amparà., 45 (1): 5-32, ottobre 2001.
  6. Thair Nu Phyu. Survey di tecniche di classificazione in data mining.
  7. X. Shu, D. Yao, è E. Bertino. Rilevazione di cunservazione di privacy di l'esposizione di dati sensibili. Transazzioni IEEE nantu à l'Informazione Forensica è a Sicurezza, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning è Xiaoyang Wang. Appintent: Analizà a trasmissione di dati sensibili in Android per a rilevazione di fughe di privacy. pagine 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, è Quoc V. Le. Aumento di dati senza supervisione.

Classificazione di dati scalabile per a sicurità è a privacy
Scuprite i dettagli nantu à cumu uttene una professione ricercata da zero o Level Up in quantu à e cumpetenze è u salariu pigliandu i corsi in linea di SkillFactory:

Più corsi

Source: www.habr.com

Add a comment