Google відкрив код бібліотеки для конфіденційної обробки даних

компанія Google опублікувала вихідні тексти бібліотекиДиференціальна конфіденційність» з реалізацією методів диференціальної приватності, що дозволяють з досить високою точністю виконувати статистичні операції над набором даних без можливості ідентифікації окремих записів у ньому. Код бібліотеки написаний мовою C++ та відкритий під ліцензією Apache 2.0

Аналіз із використанням методів диференціальної приватності дає можливість організаціям проводити аналітичні вибірки зі статистичних БД, не дозволяючи розділити дані та виділити із загальної інформації параметри конкретних осіб. Наприклад, для виявлення відмінностей у догляді за хворими, дослідникам можна надати інформацію, що дозволяє порівняти середню кількість часу перебування пацієнтів у лікарнях, але при цьому зберігає конфіденційність пацієнтів та не допускає виділення відомостей про них.

Запропонована бібліотека включає в себе реалізацію декількох алгоритмів для формування агрегованої статистики на основі наборів числових даних, що включають конфіденційні відомості. Для перевірки коректності роботи алгоритмів надається стохастичний пробник. Алгоритми дозволяють виконувати над даними операції підсумовування, підрахунку, обчислення середніх значень, середньоквадратичного відхилення, дисперсії та порядкової статистики, включаючи визначення мінімуму, максимуму та медіани. До складу також входить реалізація механізму Лапласа, який може використовуватися для обчислень, які не охоплюються визначеними алгоритмами.

Бібліотека використовує модульну архітектуру, що дозволяє розширювати наявну функціональність та додавати додаткові механізми, агрегатні функції та засоби керування рівнем конфіденційності.
На базі бібліотеки для СУБД PostgreSQL 11 підготовлено розширення з набором анонімних агрегатних функцій, що використовують методи диференціальної приватності - ANON_COUNT, ANON_SUM, ANON_AVG, ANON_VAR, ANON_STDDEV та ANON_NTILE.

Джерело: opennet.ru

Додати коментар або відгук