Google åpner bibliotekskode for konfidensiell databehandling

Google опубликовала bibliotekets kildekoder "Differensiell personvern» med implementering av metoder forskjellig personvern, som gjør det mulig å utføre statistiske operasjoner på et datasett med tilstrekkelig høy nøyaktighet uten muligheten til å identifisere individuelle poster i det. Bibliotekkoden er skrevet i C++ og åpen lisensiert under Apache 2.0.

Analyse ved bruk av differensielle personvernmetoder lar organisasjoner lage analytiske prøver fra statistiske databaser, uten å tillate dem å skille dataene og isolere parametrene til spesifikke individer fra den generelle informasjonen. For å identifisere forskjeller i pasientbehandlingen kan for eksempel forskerne gis informasjon som gjør at de kan sammenligne gjennomsnittlig liggetid for pasienter på sykehus, men likevel opprettholder pasientens konfidensialitet og ikke fremhever pasientinformasjon.

Det foreslåtte biblioteket inkluderer implementering av flere algoritmer for å generere aggregert statistikk basert på sett med numeriske data som inkluderer konfidensiell informasjon. For å kontrollere at algoritmene fungerer korrekt, er det gitt stokastisk sonde. Algoritmer lar deg utføre summering, telling, gjennomsnitt, standardavvik, spredning og rekkefølgestatistikk på data, inkludert å bestemme minimum, maksimum og median. Det inkluderer også implementeringen Laplace mekanisme, som kan brukes til beregninger som ikke dekkes av forhåndsdefinerte algoritmer.

Biblioteket bruker en modulær arkitektur som lar deg utvide eksisterende funksjonalitet og legge til flere mekanismer, aggregerte funksjoner og kontroller på personvernnivå.
Basert på biblioteket for PostgreSQL 11 DBMS forberedt utvidelse med et sett med anonyme samlefunksjoner som bruker differensielle personvernmetoder - ANON_COUNT, ANON_SUM, ANON_AVG, ANON_VAR, ANON_STDDEV og ANON_NTILE.

Kilde: opennet.ru

Legg til en kommentar