Classificació de dades escalable per seguretat i privadesa

Classificació de dades escalable per seguretat i privadesa

La classificació de dades basada en contingut és un problema obert. Els sistemes tradicionals de prevenció de pèrdues de dades (DLP) resolen aquest problema mitjançant l'empremta digital de les dades rellevants i el seguiment dels punts finals per a la presa d'empremtes dactilars. Atesa la gran quantitat de recursos de dades que canvien constantment a Facebook, aquest enfocament no només no és escalable, sinó que també és ineficaç per determinar on resideixen les dades. Aquest article se centra en un sistema d'extrem a extrem creat per detectar tipus semàntics sensibles a Facebook a escala i aplicar automàticament l'emmagatzematge de dades i el control d'accés.

L'enfocament que es descriu aquí és el nostre primer sistema de privadesa d'extrem a extrem que intenta resoldre aquest problema incorporant senyals de dades, aprenentatge automàtic i tècniques tradicionals d'empremtes dactilars per mapejar i classificar totes les dades a Facebook. El sistema descrit funciona en un entorn de producció, aconseguint una puntuació F2 mitjana de 0,9+ en diverses classes de privadesa mentre processa grans quantitats de recursos de dades en desenes de dipòsits. Presentació d'una traducció del document ArXiv de Facebook sobre la classificació de dades escalable per a la seguretat i la privadesa basada en l'aprenentatge automàtic.

Introducció

Avui en dia, les organitzacions recullen i emmagatzemen grans quantitats de dades en una varietat de formats i ubicacions [1], després les dades es consumeixen en molts llocs, de vegades es copien o s'emmagatzemen en memòria cau diverses vegades, donant com a resultat que la informació empresarial valuosa i sensible es dispersa per moltes dades empresarials. botigues. Quan una organització ha de complir determinats requisits legals o reglamentaris, com ara el compliment de la normativa en procediments civils, es fa necessari recollir dades sobre la ubicació de les dades requerides. Quan una normativa de privadesa estableix que una organització ha d'emmascarar tots els números de la Seguretat Social (SSN) quan comparteix informació personal amb entitats no autoritzades, el primer pas natural és cercar tots els SSN als magatzems de dades de l'organització. En aquestes circumstàncies, la classificació de les dades esdevé crítica [1]. El sistema de classificació permetrà a les organitzacions aplicar automàticament polítiques de privadesa i seguretat, com ara l'habilitació de polítiques de control d'accés, retenció de dades. Facebook està introduint un sistema que hem creat a Facebook que utilitza múltiples senyals de dades, arquitectura de sistema escalable i aprenentatge automàtic per descobrir tipus de dades semàntiques sensibles.

El descobriment i la classificació de dades és el procés de trobar i etiquetar dades perquè la informació rellevant es pugui recuperar de manera ràpida i eficient quan sigui necessari. El procés actual és més aviat manual per naturalesa i consisteix a examinar les lleis o regulacions rellevants, determinar quins tipus d'informació s'han de considerar sensibles i quins són els diferents nivells de sensibilitat, i després construir classes i polítiques de classificació en conseqüència [1]. La prevenció de pèrdues de dades (DLP) després pren les empremtes dactilars de les dades i supervisa els punts finals aigües avall per obtenir empremtes dactilars. Quan es tracta d'un magatzem pesat en actius amb petabytes de dades, aquest enfocament simplement no s'escala.

El nostre objectiu és crear un sistema de classificació de dades que s'ampliï tant a les dades d'usuari robustes com a les transitòries, sense cap restricció addicional sobre el tipus o format de dades. Aquest és un objectiu audaç i, naturalment, comporta reptes. Un registre de dades determinat pot tenir milers de caràcters.

Classificació de dades escalable per seguretat i privadesa
Figura 1. Fluxos de previsió en línia i fora de línia

Per tant, hem de representar-lo de manera eficient utilitzant un conjunt comú de característiques que després es poden combinar i moure fàcilment. Aquestes funcions no només haurien de proporcionar una classificació precisa, sinó que també haurien de proporcionar flexibilitat i extensibilitat per afegir i descobrir nous tipus de dades fàcilment en el futur. En segon lloc, heu de fer front a taules grans fora de línia. Les dades duradores es poden emmagatzemar en taules de molts petabytes de mida. Això pot provocar velocitats d'escaneig més lentes. En tercer lloc, hem de complir amb una classificació estricta de SLA de dades volàtils. Això obliga el sistema a ser altament eficient, ràpid i precís. Finalment, hem de proporcionar una classificació de dades de baixa latència per a dades volàtils per realitzar una classificació en temps real, així com per a casos d'ús d'Internet.

Aquest article descriu com hem abordat els reptes anteriors i presenta un sistema de classificació ràpid i escalable que classifica els elements de dades de tots els tipus, formats i fonts en funció d'un conjunt comú de característiques. Hem ampliat l'arquitectura del sistema i hem creat un model d'aprenentatge automàtic personalitzat per classificar ràpidament les dades fora de línia i en línia. Aquest document s'organitza de la següent manera: La secció 2 presenta el disseny global del sistema. La secció 3 tracta les parts d'un sistema d'aprenentatge automàtic. Les seccions 4 i 5 destaquen el treball relacionat i esbossen les futures direccions de treball.

arquitectura

Per fer front als reptes de les dades en línia persistents i a escala de Facebook, el sistema de classificació té dos fluxos separats, que parlarem amb detall.

Dades sostenibles

Inicialment, el sistema ha d'aprendre sobre els molts actius d'informació de Facebook. Per a cada dipòsit, es recull informació bàsica, com ara el centre de dades que conté aquestes dades, el sistema que conté aquestes dades i els actius que es troben al dipòsit de dades específic. Això crea un catàleg de metadades que permet al sistema recuperar dades de manera eficient sense sobrecarregar els clients i els recursos utilitzats per altres enginyers.

Aquest catàleg de metadades proporciona una font autoritzada per a tots els actius escanejats i us permet fer un seguiment de l'estat de diversos actius. Utilitzant aquesta informació, s'estableix la prioritat de programació en funció de les dades recollides i la informació interna del sistema, com ara l'hora que es va escanejar correctament l'actiu i l'hora en què es va crear, així com els requisits de memòria i CPU anteriors per a aquest actiu si ja s'ha escanejat abans. Aleshores, per a cada recurs de dades (a mesura que els recursos estiguin disponibles), es crida una feina per escanejar el recurs.

Cada treball és un fitxer binari compilat que realitza un mostreig de Bernoulli amb les últimes dades disponibles per a cada actiu. L'actiu es divideix en columnes individuals, on el resultat de la classificació de cada columna es processa de manera independent. A més, el sistema busca qualsevol dada saturada dins de les columnes. S'escanegen JSON, matrius, estructures codificades, URL, dades serialitzades de base 64 i molt més. Això pot augmentar significativament el temps d'execució de l'exploració perquè una única taula pot contenir milers de columnes imbricades en un blob json.

Per a cada fila que es selecciona a l'actiu de dades, el sistema de classificació extreu els objectes flotants i de text del contingut i associa cada objecte a la columna de la qual s'ha extret. La sortida del pas d'extracció de característiques és un mapa de totes les característiques per a cada columna que es troba a l'actiu de dades.

Per a què serveixen els senyals?

El concepte d'atributs és clau. En lloc de trets flotants i de text, podem passar mostres de cadena en brut que s'extreuen directament de cada recurs de dades. A més, els models d'aprenentatge automàtic es poden entrenar directament a cada mostra, en lloc de centenars de càlculs de característiques que només intenten aproximar la mostra. Hi ha diverses raons per a això:

  1. La privadesa primer: el més important és que el concepte de característiques ens permet emmagatzemar a la memòria només aquells patrons que recuperem. Això garanteix que emmagatzemem mostres per a un únic propòsit i mai les registrem pel nostre propi esforç. Això és especialment important per a dades volàtils, ja que el servei ha de mantenir algun estat de classificació abans de proporcionar una predicció.
  2. Memòria: algunes mostres poden tenir milers de caràcters. Emmagatzemar aquestes dades i transmetre-les a parts del sistema consumeix innecessàriament molts bytes addicionals. Els dos factors es poden combinar amb el temps, atès que hi ha molts recursos de dades amb milers de columnes.
  3. Agregació de característiques: les característiques representen clarament els resultats de cada exploració a través d'un conjunt de funcions, cosa que permet al sistema combinar els resultats de les exploracions anteriors del mateix recurs de dades d'una manera còmoda. Això pot ser útil per agregar resultats d'escaneig d'un sol recurs de dades en diverses execucions.

A continuació, les funcions s'envien a un servei de predicció on fem servir la classificació basada en regles i l'aprenentatge automàtic per predir les etiquetes de dades de cada columna. El servei es basa tant en classificadors de regles com en aprenentatge automàtic i selecciona la millor predicció donada a partir de cada objecte de predicció.

Els classificadors de regles són heurístics manuals, utilitzen càlculs i coeficients per normalitzar un objecte en un rang de 0 a 100. Una vegada que es genera una puntuació inicial per a cada tipus de dades i nom de columna associat amb aquestes dades, no s'inclou en cap "prohibició". llistes", el classificador de regles selecciona la puntuació normalitzada més alta entre tots els tipus de dades.

A causa de la complexitat de la classificació, confiar únicament en l'heurística manual dóna com a resultat una precisió de classificació baixa, especialment per a dades no estructurades. Per aquest motiu, hem desenvolupat un sistema d'aprenentatge automàtic per treballar amb la classificació de dades no estructurades com el contingut i l'adreça de l'usuari. L'aprenentatge automàtic ha permès començar a allunyar-se de l'heurística manual i aplicar senyals de dades addicionals (per exemple, noms de columnes, procedència de dades), millorant significativament la precisió de la detecció. Més endavant ens endinsarem en la nostra arquitectura d'aprenentatge automàtic.

El servei de predicció emmagatzema els resultats de cada columna juntament amb metadades sobre el temps i l'estat de l'exploració. Tots els consumidors i processos aigües avall que depenguin d'aquestes dades poden llegir-les del conjunt de dades publicat diàriament. Aquest conjunt agrega els resultats de tots aquests treballs d'escaneig o API de catàleg de dades en temps real. Les previsions publicades són la base per a l'aplicació automàtica de les polítiques de privadesa i seguretat.

Finalment, després que el servei de previsió escrigui totes les dades i s'emmagatzemen totes les previsions, la nostra API de catàleg de dades pot retornar totes les previsions de tipus de dades del recurs en temps real. Cada dia, el sistema publica un conjunt de dades que conté totes les darreres previsions per a cada actiu.

Dades volàtils

Tot i que el procés anterior està dissenyat per a actius persistents, el trànsit no persistent també es considera part de les dades d'una organització i pot ser important. Per aquest motiu, el sistema proporciona una API en línia per generar prediccions de classificació en temps real per a qualsevol trànsit intermitent. El sistema de previsió en temps real s'utilitza àmpliament per classificar el trànsit sortint, el trànsit entrant en models d'aprenentatge automàtic i dades d'anunciants.

Aquí l'API pren dos arguments principals: la clau d'agrupació i les dades en brut que s'han de predir. El servei realitza la mateixa recuperació d'objectes que es descriu anteriorment i agrupa els objectes per a la mateixa clau. Aquestes funcions també s'admeten a la memòria cau de persistència per a la recuperació d'errors. Per a cada clau d'agrupació, el servei assegura que ha vist prou mostres abans de trucar al servei de predicció, seguint el procés descrit anteriorment.

Optimització

Per escanejar alguns emmagatzematges, utilitzem biblioteques i tècniques per optimitzar la lectura de l'emmagatzematge calent [2] i assegurar-nos que no hi hagi interrupcions per part d'altres usuaris que accedeixen al mateix emmagatzematge.

Per a taules extremadament grans (50+ petabytes), malgrat totes les optimitzacions i l'eficiència de la memòria, el sistema treballa per escanejar i calcular-ho tot abans de quedar-se sense memòria. Després de tot, l'exploració es calcula completament a la memòria i no s'emmagatzema durant l'exploració. Si les taules grans contenen milers de columnes amb grups de dades no estructurats, la tasca pot fallar a causa de recursos de memòria insuficients quan es fan prediccions a tota la taula. Això donarà lloc a una cobertura reduïda. Per combatre-ho, hem optimitzat el sistema perquè utilitzi la velocitat d'escaneig com a intermediari per saber com el sistema gestiona la càrrega de treball actual. Utilitzem la velocitat com a mecanisme predictiu per veure problemes de memòria i calcular predictivament el mapa de característiques. Al mateix temps, utilitzem menys dades de l'habitual.

Senyals de dades

Un sistema de classificació només és tan bo com els senyals de les dades. Aquí veurem tots els senyals utilitzats pel sistema de classificació.

  • Basat en contingut: per descomptat, el primer i més important senyal és el contingut. El mostreig de Bernoulli es realitza a cada actiu de dades que analitzem i extreurem les funcions en funció del contingut de les dades. Molts signes provenen del contingut. És possible qualsevol nombre d'objectes flotants, que representen càlculs de quantes vegades s'ha vist un tipus de mostra en particular. Per exemple, podem tenir indicis del nombre de correus electrònics que es veuen en una mostra o de quants emojis es veuen en una mostra. Aquests càlculs de característiques es poden normalitzar i agregar en diferents escanejos.
  • Procedència de les dades: un senyal important que pot ajudar quan el contingut ha canviat de la taula principal. Un exemple comú són les dades hash. Quan les dades d'una taula secundària s'hagin, sovint provenen de la taula pare, on romanen en clar. Les dades de llinatge ajuden a classificar certs tipus de dades quan no es llegeixen clarament o es converteixen des d'una taula amunt.
  • Anotacions: un altre senyal d'alta qualitat que ajuda a identificar dades no estructurades. De fet, les anotacions i les dades de procedència poden treballar juntes per propagar atributs entre diferents actius de dades. Les anotacions ajuden a identificar la font de les dades no estructurades, mentre que les dades de llinatge poden ajudar a fer un seguiment del flux d'aquestes dades a tot el dipòsit.
  • La injecció de dades és una tècnica on s'introdueixen intencionadament caràcters especials i il·legibles en fonts conegudes de tipus de dades coneguts. Aleshores, sempre que escanegem contingut amb la mateixa seqüència de caràcters il·legibles, podem inferir que el contingut prové d'aquest tipus de dades conegut. Aquest és un altre senyal de dades qualitatives similar a les anotacions. Excepte que la detecció basada en contingut ajuda a descobrir les dades introduïdes.

Mesura de mètriques

Un component important és una metodologia rigorosa per mesurar mètriques. Les mètriques principals per a la iteració de millora de la classificació són la precisió i el record de cada etiqueta, sent la puntuació F2 la més important.

Per calcular aquestes mètriques, es necessita una metodologia independent per etiquetar els actius de dades que sigui independent del propi sistema, però que es pugui utilitzar per a una comparació directa amb ell. A continuació, descrivim com recollim la veritat terrestre de Facebook i l'utilitzem per entrenar el nostre sistema de classificació.

Recollida de dades fiables

Acumulem dades fiables de cada font que s'enumeren a continuació a la seva pròpia taula. Cada taula és responsable d'agregar els darrers valors observats d'aquesta font en particular. Cada font té comprovacions de qualitat de les dades per assegurar-se que els valors observats per a cada font siguin d'alta qualitat i continguin les últimes etiquetes de tipus de dades.

  • Configuracions de la plataforma de registre: determinats camps de les taules de rusc s'omplen amb dades d'un tipus específic. L'ús i la difusió d'aquestes dades serveix com a font fiable de veritat.
  • Etiquetatge manual: els desenvolupadors que mantenen el sistema, així com els etiquetadors externs, estan entrenats per etiquetar columnes. En general, això funciona bé per a tot tipus de dades del magatzem i pot ser la font principal de veritat per a algunes dades no estructurades, com ara dades de missatges o contingut d'usuari.
  • Les columnes de les taules pares es poden marcar o anotar com a que contenen determinades dades, i podem fer un seguiment d'aquestes dades a les taules dels fills.
  • Obtenció de fils d'execució: els fils d'execució a Facebook porten tipus de dades específics. Utilitzant el nostre escàner com a arquitectura de servei, podem mostrejar fluxos que tenen tipus de dades coneguts i enviar-los a través del sistema. El sistema es compromet a no emmagatzemar aquestes dades.
  • Taules d'exemple: les taules de rusc grans, que se sap que contenen tot el corpus de dades, també es poden utilitzar com a dades d'entrenament i passar per l'escàner com a servei. Això és ideal per a taules amb una gamma completa de tipus de dades, de manera que el mostreig d'una columna a l'atzar equival a un mostreig de tot el conjunt d'aquest tipus de dades.
  • Dades sintètiques: fins i tot podem utilitzar biblioteques que generen dades sobre la marxa. Això funciona bé per a tipus de dades públiques senzilles, com ara una adreça o un GPS.
  • Administradors de dades: els programes de privadesa solen utilitzar administradors de dades per assignar manualment polítiques a peces de dades. Això serveix com a font de veritat molt precisa.

Combinem totes les fonts principals de veritat en un sol corpus amb totes aquestes dades. El repte més gran amb la validesa és assegurar-se que sigui representatiu del dipòsit de dades. En cas contrari, els motors de classificació poden sobreentrenar. Per combatre-ho, s'utilitzen totes les fonts anteriors per garantir l'equilibri a l'hora d'entrenar models o calcular mètriques. A més, els etiquetadors humans mostren de manera uniforme diferents columnes del dipòsit i etiqueten les dades en conseqüència, de manera que la recopilació de la veritat bàsica es mantingui imparcial.

Integració contínua

Per garantir una ràpida iteració i millora, és important mesurar sempre el rendiment del sistema en temps real. Avui podem mesurar totes les millores de classificació amb el sistema, de manera que podem guiar tàcticament les millores futures basant-nos en dades. Aquí veiem com el sistema completa el bucle de retroalimentació que proporcionen dades vàlides.

Quan el sistema de programació troba un actiu que té una etiqueta d'una font de confiança, programem dues tasques. El primer utilitza el nostre escàner de producció i, per tant, les nostres capacitats de producció. La segona tasca utilitza l'escàner de compilació més recent amb les últimes funcions. Cada tasca escriu la seva sortida a la seva pròpia taula, etiquetant les versions juntament amb els resultats de la classificació.

Així és com comparem els resultats de classificació del candidat al llançament i el model de producció en temps real.

Tot i que els conjunts de dades comparen les funcions RC i PROD, es registren moltes variacions del motor de classificació ML del servei de predicció. El model d'aprenentatge automàtic construït més recentment, el model actual en producció i qualsevol model experimental. El mateix enfocament ens permet "tallar" diferents versions del model (independentment dels nostres classificadors de regles) i comparar mètriques en temps real. Això fa que sigui fàcil determinar quan un experiment de ML està a punt per entrar en producció.

Cada nit, les característiques de RC calculades per a aquest dia s'envien al pipeline d'entrenament ML, on el model s'entrena amb les últimes funcions de RC i avalua el seu rendiment amb el conjunt de dades de la veritat terrestre.

Cada matí, el model completa la formació i es publica automàticament com a model experimental. S'inclou automàticament a la llista experimental.

Alguns resultats

Més de 100 tipus de dades diferents s'etiqueten amb alta precisió. Els tipus ben estructurats, com ara correus electrònics i números de telèfon, es classifiquen amb una puntuació f2 superior a 0,95. Els tipus de dades gratuïts, com ara el contingut generat per l'usuari i el nom, també funcionen molt bé, amb puntuacions F2 superiors a 0,85.

Un gran nombre de columnes individuals de dades persistents i volàtils es classifiquen diàriament en tots els dipòsits. S'escanegen diàriament més de 500 terabytes en més de 10 magatzems de dades. La majoria d'aquests dipòsits tenen una cobertura superior al 98%.

Amb el pas del temps, la classificació s'ha tornat molt eficient, ja que els treballs de classificació en un flux continuat fora de línia triguen una mitjana de 35 segons des de l'escaneig d'un actiu fins al càlcul de prediccions per a cada columna.

Classificació de dades escalable per seguretat i privadesa
Arròs. 2. Diagrama que descriu el flux d'integració contínua per entendre com es generen i s'envien els objectes RC al model.

Classificació de dades escalable per seguretat i privadesa
Figura 3. Diagrama d'alt nivell d'un component d'aprenentatge automàtic.

Component del sistema d'aprenentatge automàtic

A la secció anterior, vam fer una immersió profunda en l'arquitectura general del sistema, destacant l'escala, l'optimització i els fluxos de dades fora de línia i en línia. En aquesta secció, veurem el servei de previsió i descriurem el sistema d'aprenentatge automàtic que impulsa el servei de previsió.

Amb més de 100 tipus de dades i alguns continguts no estructurats, com ara dades de missatges i contingut d'usuari, l'ús d'heurístiques purament manuals dóna com a resultat una precisió de classificació subparamètrica, especialment per a dades no estructurades. Per aquest motiu, també hem desenvolupat un sistema d'aprenentatge automàtic per fer front a les complexitats de les dades no estructurades. L'ús de l'aprenentatge automàtic us permet començar a allunyar-vos de l'heurística manual i treballar amb funcions i senyals de dades addicionals (per exemple, noms de columnes, origen de dades) per millorar la precisió.

El model implementat estudia representacions vectorials [3] sobre objectes densos i dispersos per separat. A continuació, es combinen per formar un vector, que passa per una sèrie de normalització per lots [4] i passos de no linealitat per produir el resultat final. El resultat final és un nombre de coma flotant entre [0-1] per a cada etiqueta, que indica la probabilitat que l'exemple pertanyi a aquest tipus de sensibilitat. L'ús de PyTorch per al model ens va permetre avançar més ràpidament, permetent als desenvolupadors externs a l'equip fer i provar canvis ràpidament.

A l'hora de dissenyar l'arquitectura, era important modelar objectes dispersos (per exemple, text) i densos (per exemple, numèrics) per separat a causa de les seves diferències inherents. Per a l'arquitectura final, també era important realitzar un escombrat de paràmetres per trobar el valor òptim per a la taxa d'aprenentatge, la mida del lot i altres hiperparàmetres. L'elecció de l'optimitzador també va ser un hiperparàmetre important. Hem trobat que un optimitzador popular Adamsovint condueix a un sobreajust, mentre que un model amb USD més estable. Hi havia matisos addicionals que havíem d'incloure directament al model. Per exemple, regles estàtiques que asseguraven que el model fes una predicció determinista quan una característica té un valor determinat. Aquestes regles estàtiques les defineixen els nostres clients. Vam trobar que incorporar-los directament al model va donar lloc a una arquitectura més autònoma i robusta, en lloc d'implementar un pas de postprocessament per gestionar aquests casos especials. Tingueu en compte també que aquestes regles es desactiven durant l'entrenament per no interferir amb el procés d'entrenament de descens de gradients.

Problemes

Un dels reptes va ser recollir dades fiables i d'alta qualitat. El model necessita confiança per a cada classe perquè pugui aprendre associacions entre objectes i etiquetes. A la secció anterior, vam discutir els mètodes de recollida de dades tant per a la mesura del sistema com per a l'entrenament del model. L'anàlisi va demostrar que les classes de dades, com ara els números de targeta de crèdit i de compte bancari, no són molt habituals al nostre magatzem. Això dificulta la recollida de grans quantitats de dades fiables per entrenar models. Per abordar aquest problema, hem desenvolupat processos per obtenir dades de veritat del terreny sintètic per a aquestes classes. Generem aquestes dades per a tipus sensibles, inclosos SSN, números de targeta de crèdit и IBAN-nombres per als quals el model no podia predir prèviament. Aquest enfocament permet processar tipus de dades sensibles sense els riscos de privadesa associats amb l'ocultació de les dades sensibles reals.

A més dels problemes de la veritat bàsica, hi ha qüestions arquitectòniques obertes en què estem treballant, com ara canviar l'aïllament и parada primerenca. L'aïllament dels canvis és important per garantir que quan es fan canvis diferents a diferents parts de la xarxa, l'impacte s'aïlla a classes específiques i no té un impacte ampli en el rendiment global de la previsió. Millorar els criteris d'aturada primerenca també és fonamental perquè puguem aturar el procés d'entrenament en un punt estable per a totes les classes, més que en un punt en què algunes classes es sobreentrenen i d'altres no.

Importància de la característica

Quan s'introdueix una característica nova en un model, volem conèixer el seu impacte general en el model. També volem assegurar-nos que les prediccions siguin interpretables per l'home de manera que puguem entendre exactament quines característiques s'utilitzen per a cada tipus de dades. Amb aquesta finalitat hem desenvolupat i introduït per classe importància de les funcions per al model PyTorch. Tingueu en compte que això és diferent de la importància general de les característiques, que normalment s'admet, perquè no ens indica quines característiques són importants per a una classe concreta. Mesurem la importància d'un objecte calculant l'augment de l'error de predicció després de reordenar l'objecte. Una característica és "important" quan l'intercanvi de valors augmenta l'error del model perquè en aquest cas el model es basava en la característica per fer la seva predicció. Una característica és "poc important" quan es barregen els seus valors deixa sense canvis l'error del model, ja que en aquest cas el model l'ignora [5].

La importància de la característica per a cada classe ens permet fer que el model sigui interpretable de manera que puguem veure què mira el model quan prediu una etiqueta. Per exemple, quan analitzem ADDR, llavors garantim que el signe associat a l'adreça, com ara AddressLinesCount, ocupa un lloc destacat a la taula d'importància de les funcions de cada classe perquè la nostra intuïció humana coincideixi bé amb el que ha après el model.

Avaluació

És important definir una única mètrica per a l'èxit. Nosaltres vam triar F2 - equilibri entre record i precisió (el biaix de record és lleugerament més gran). El record és més important per a un cas d'ús de privadesa que la precisió perquè és fonamental que l'equip no es perdi cap dada sensible (tot i que garanteix una precisió raonable). L'avaluació real del rendiment F2 del nostre model està fora de l'abast d'aquest document. No obstant això, amb una sintonització acurada podem aconseguir puntuacions F0,9 altes (2+) per a les classes sensibles més importants.

Treball relacionat

Hi ha molts algorismes per a la classificació automàtica de documents no estructurats que utilitzen diversos mètodes com la concordança de patrons, la cerca de similitud de documents i diversos mètodes d'aprenentatge automàtic (bayesians, arbres de decisió, k-nearest neighbors i molts altres) [6]. Qualsevol d'aquests es pot utilitzar com a part d'una classificació. Tanmateix, el problema és l'escalabilitat. L'enfocament de classificació d'aquest article està esbiaixat cap a la flexibilitat i el rendiment. Això ens permet donar suport a noves classes en el futur i mantenir la latència baixa.

També hi ha molta feina a la presa de dades. Per exemple, els autors de [7] van descriure una solució que se centra en el problema de capturar fuites de dades sensibles. La hipòtesi subjacent és que les dades es poden prendre empremtes digitals per fer-les coincidir amb un conjunt de dades sensibles conegudes. Els autors de [8] descriuen un problema similar de fuga de privadesa, però la seva solució es basa en una arquitectura específica d'Android i només es classifica si les accions de l'usuari donen lloc a l'intercanvi d'informació personal o si l'aplicació subjacent filtra dades d'usuari. La situació aquí és una mica diferent perquè les dades dels usuaris també poden estar molt desestructurades. Per tant, necessitem una tècnica més complexa que la de les empremtes digitals.

Finalment, per fer front a l'escassetat de dades per a alguns tipus de dades sensibles, vam introduir dades sintètiques. Hi ha una gran quantitat de literatura sobre l'augment de dades, per exemple, els autors de [9] van explorar el paper de la injecció de soroll durant l'entrenament i van observar resultats positius en l'aprenentatge supervisat. El nostre enfocament de la privadesa és diferent perquè introduir dades sorolloses pot ser contraproduent i, en canvi, ens centrem en dades sintètiques d'alta qualitat.

Conclusió

En aquest article, vam presentar un sistema que pot classificar una dada. Això ens permet crear sistemes per fer complir les polítiques de privadesa i seguretat. Hem demostrat que la infraestructura escalable, la integració contínua, l'aprenentatge automàtic i la garantia de dades d'alta qualitat tenen un paper clau en l'èxit de moltes de les nostres iniciatives de privadesa.

Hi ha moltes direccions per al treball futur. Això pot incloure proporcionar suport per a dades no esquematitzades (fitxers), classificar no només el tipus de dades, sinó també el nivell de sensibilitat i utilitzar l'aprenentatge autosupervisat durant l'entrenament mitjançant la generació d'exemples sintètics precisos. El que, al seu torn, ajudarà el model a reduir les pèrdues en la major quantitat. El treball futur també es podria centrar en el flux de treball d'investigació, on anem més enllà de la detecció i proporcionem una anàlisi de la causa arrel de diverses violacions de la privadesa. Això ajudarà en casos com ara l'anàlisi de sensibilitat (és a dir, si la sensibilitat de privadesa d'un tipus de dades és alta (per exemple, IP de l'usuari) o baixa (per exemple, IP interna de Facebook)).

Bibliografia

  1. David Ben-David, Tamar Domany i Abigail Tarem. Classificació de dades empresarials mitjançant tecnologies web semàntica. A Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks i Birte Glimm, editors, La web semàntica - ISWC 2010, pàgines 66–81, Berlín, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang i Sanjeev Kumar. f4: sistema d'emmagatzematge BLOB càlid de Facebook. En 11è Simposi USENIX sobre Disseny i Implementació de Sistemes Operatius (OSDI 14), pàgines 383–398, Broomfield, CO, octubre de 2014. Associació USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado i Jeff Dean. Representacions distribuïdes de paraules i frases i la seva composició. A C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani i K. Q. Weinberger, editors, Avenços en sistemes de processament d'informació neuronal 26, pàgines 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe i Christian Szegedy. Normalització per lots: accelerar l'entrenament en xarxa profunda reduint el canvi de covariable intern. A Francis Bach i David Blei, editors, Actes de la 32a Conferència Internacional sobre Aprenentatge Automàtic, volum 37 de Proceedings of Machine Learning Research, pàgines 448–456, Lille, França, 07–09 de juliol de 2015. PMLR.
  5. Leo Breiman. Boscos aleatoris. Mach. Aprèn., 45(1):5–32, octubre de 2001.
  6. Thair Nu Phyu. Enquesta de tècniques de classificació en mineria de dades.
  7. X. Shu, D. Yao i E. Bertino. Detecció d'exposició de dades sensibles per preservar la privadesa. Transaccions IEEE sobre informació forense i seguretat, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning i Xiaoyang Wang. Apuntant: anàlisi de la transmissió de dades sensibles a Android per a la detecció de fuites de privadesa. pàgines 1043–1054, 11 de 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong i Quoc V. Le. Augment de dades no supervisat.

Classificació de dades escalable per seguretat i privadesa
Descobriu detalls sobre com aconseguir una professió sol·licitada des de zero o Pujar de nivell en termes d'habilitats i sou fent cursos en línia de SkillFactory:

Més cursos

Font: www.habr.com

Afegeix comentari