Klasifikasi data scalable pikeun kaamanan sareng privasi

Klasifikasi data scalable pikeun kaamanan sareng privasi

Klasifikasi data dumasar kana eusi mangrupikeun masalah anu kabuka. Sistem pencegahan leungitna data tradisional (DLP) ngarengsekeun masalah ieu ku cara nyitak sidik data anu relevan sareng ngawas titik tungtung pikeun sidik. Dibikeun angka nu gede ngarupakeun sumber data terus ngarobah di Facebook, pendekatan ieu teu ngan teu scalable, tapi ogé teu epektip pikeun nangtukeun dimana data resides. Tulisan ieu museurkeun kana sistem tungtung-ka-tungtung anu diwangun pikeun ngadeteksi jinis semantik sénsitip dina Facebook dina skala sareng sacara otomatis ngalaksanakeun panyimpen data sareng kontrol aksés.

Pendekatan anu dijelaskeun di dieu nyaéta sistem privasi tungtung-ka-tungtung munggaran urang anu nyobian ngabéréskeun masalah ieu ku ngalebetkeun sinyal data, pembelajaran mesin, sareng téknik sidik jari tradisional pikeun peta sareng mengklasifikasikan sadaya data dina Facebook. Sistem anu dijelaskeun dioperasikeun dina lingkungan produksi, ngahontal skor F2 rata-rata 0,9+ dina sagala rupa kelas privasi bari ngolah sumber data anu ageung dina puluhan repositori. Ngenalkeun tarjamahan kertas ArXiv Facebook ngeunaan klasifikasi data anu tiasa diskalakeun pikeun kaamanan sareng privasi dumasar kana pembelajaran mesin.

perkenalan

Kiwari, organisasi ngumpulkeun jeung nyimpen jumlah badag data dina rupa-rupa format jeung lokasi [1], lajeng data dikonsumsi di loba tempat, sakapeung ditiron atawa sindangan sababaraha kali, hasilna informasi bisnis berharga jeung sénsitip sumebar ka sakuliah loba data perusahaan. toko. Nalika hiji organisasi diwajibkeun nyumponan sarat hukum atanapi pangaturan anu tangtu, sapertos patuh kana peraturan dina cara ngagawe sipil, janten peryogi pikeun ngumpulkeun data ngeunaan lokasi data anu diperyogikeun. Nalika peraturan privasi nyatakeun yén hiji organisasi kedah nyakup sadaya Nomer Jaminan Sosial (SSN) nalika ngabagi inpormasi pribadi sareng éntitas anu henteu sah, léngkah munggaran anu alami nyaéta milarian sadaya SSN di toko data organisasi. Dina kaayaan kitu, klasifikasi data jadi kritis [1]. Sistem klasifikasi bakal ngidinan organisasi pikeun otomatis ngalaksanakeun kawijakan privasi sarta kaamanan, kayaning sangkan kawijakan kontrol aksés, ingetan data. Facebook ngenalkeun sistem anu urang diwangun di Facebook anu ngagunakeun sababaraha sinyal data, arsitéktur sistem scalable, sareng pembelajaran mesin pikeun mendakan jinis data semantik anu sénsitip.

Papanggihan sareng Klasifikasi Data nyaéta prosés milarian sareng panyiri data supados inpormasi anu relevan tiasa dipendakan gancang sareng éfisién nalika diperyogikeun. Prosés ayeuna rada manual di alam sarta diwangun ku examining hukum atawa peraturan relevan, nangtukeun jenis informasi naon kudu dianggap sénsitip sarta naon tingkat béda sensitipitas, lajeng ngawangun kelas jeung kawijakan klasifikasi sasuai [1]. Pencegahan leungitna data (DLP) teras sidik data sareng ngawas titik tungtung hilir pikeun kéngingkeun sidik. Nalika ngurus gudang anu beurat-beurat sareng petabytes data, pendekatan ieu ngan saukur henteu skala.

Tujuanana kami nyaéta pikeun ngawangun sistem klasifikasi data anu skala pikeun data pangguna anu kuat sareng sementara, tanpa aya larangan tambahan dina jinis atanapi format data. Ieu mangrupikeun tujuan anu saé, sareng sacara alami datang sareng tantangan. Catetan data anu dipasihkeun tiasa panjangna rébuan karakter.

Klasifikasi data scalable pikeun kaamanan sareng privasi
Angka 1. Aliran ramalan online sareng offline

Ku alatan éta, urang kudu ngagambarkeun eta éfisién ngagunakeun set umum fitur nu engké bisa digabungkeun jeung gampang dipindahkeun sabudeureun. Fitur ieu teu ngan kudu nyadiakeun klasifikasi akurat, tapi ogé nyadiakeun kalenturan jeung extensibility pikeun gampang nambahkeun jeung manggihan tipe data anyar dina mangsa nu bakal datang. Bréh, Anjeun kudu nungkulan tabel offline badag. Data awét tiasa disimpen dina tabel anu ukuranana seueur petabytes. Ieu tiasa nyababkeun laju scan anu langkung laun. Katilu, urang kudu taat kana klasifikasi SLA ketat dina data volatile. Ieu maksakeun sistem janten efisien pisan, gancang sareng akurat. Tungtungna, urang kedah nyadiakeun klasifikasi data latency low pikeun data volatile pikeun ngalakukeun klasifikasi real-time ogé pikeun kasus pamakéan Internét.

Tulisan ieu ngajelaskeun kumaha urang nungkulan tantangan di luhur sareng nampilkeun sistem klasifikasi anu gancang sareng skalabel anu ngagolongkeun elemen data tina sagala jinis, format, sareng sumber dumasar kana set fitur umum. Kami ngalegaan arsitéktur sistem sareng nyiptakeun modél pembelajaran mesin khusus pikeun gancang ngagolongkeun data offline sareng online. Makalah ieu disusun saperti kieu: Bagian 2 nampilkeun desain sakabéh sistem. Bagian 3 ngabahas bagian tina sistem pembelajaran mesin. Bagian 4 jeung 5 nyorot karya patali jeung outline arah hareup gawé.

gawena undagi

Pikeun nungkulan tangtangan data online pengkuh sareng skala Facebook, sistem klasifikasi ngagaduhan dua aliran anu misah, anu bakal urang bahas sacara rinci.

Data Sustainable

Mimitina, sistem kedah diajar ngeunaan seueur inpormasi inpormasi Facebook. Pikeun unggal gudang, sababaraha inpormasi dasar dikumpulkeun, sapertos pusat data anu ngandung data éta, sistem anu ngandung data éta, sareng aset anu aya dina gudang data khusus. Ieu nyiptakeun katalog metadata anu ngamungkinkeun sistem épisién nyandak data tanpa ngabebankeun klien sareng sumber daya anu dianggo ku insinyur sanés.

Katalog metadata ieu nyayogikeun sumber anu otoritatif pikeun sadaya aset anu diseken sareng ngamungkinkeun anjeun pikeun ngalacak status sababaraha aset. Nganggo inpormasi ieu, prioritas jadwal ditetepkeun dumasar kana data anu dikumpulkeun sareng inpormasi internal tina sistem, sapertos waktos aset terakhir hasil scan sareng waktos didamel, kitu ogé mémori sareng syarat CPU anu kapungkur pikeun aset éta upami. eta geus discan sateuacan. Lajeng, pikeun tiap sumberdaya data (sakumaha sumberdaya sadia), pakasaban disebut sabenerna nyeken sumberdaya.

Masing-masing padamelan mangrupikeun file binér anu disusun anu ngalaksanakeun sampling Bernoulli dina data panganyarna anu sayogi pikeun unggal aset. Aset dibagi kana kolom individu, dimana hasil klasifikasi unggal kolom diolah sacara mandiri. Salaku tambahan, sistem nyeken data anu jenuh dina kolom. JSON, arrays, struktur disandikeun, URL, base 64 data serialized, sarta leuwih sadayana discan. Ieu tiasa sacara signifikan ningkatkeun waktos palaksanaan scan sabab hiji méja tiasa ngandung rébuan kolom anu disarangkeun dina gumpalan. json.

Pikeun unggal baris anu dipilih dina asset data, sistem klasifikasi extracts ngambang jeung téks objék tina eusi jeung associates unggal obyék deui kana kolom ti mana eta dicokot. Kaluaran léngkah ékstraksi fitur nyaéta peta sadaya fitur pikeun tiap kolom anu aya dina aset data.

Naon tanda pikeun?

Konsep atribut mangrupakeun konci. Gantina ngambang jeung téks Tret, urang bisa lulus sampel string atah nu langsung sasari ti unggal sumberdaya data. Sajaba ti éta, modél machine learning bisa dilatih langsung dina unggal sampel, tinimbang ratusan itungan fitur nu ukur nyoba ngadeukeutan sampel. Aya sababaraha alesan pikeun ieu:

  1. Privasi heula: Anu paling penting, konsép fitur ngamungkinkeun urang pikeun nyimpen dina mémori ngan ukur pola-pola anu urang nimba. Ieu ensures yén urang nyimpen sampel pikeun tujuan tunggal jeung pernah log aranjeunna ngaliwatan usaha urang sorangan. Ieu hususna penting pikeun data volatile, saprak jasa kudu ngajaga sababaraha kaayaan klasifikasi saméméh nyadiakeun prediksi a.
  2. Memori: Sababaraha conto tiasa panjangna rébuan karakter. Nyimpen data sapertos kitu sareng ngirimkeunana ka bagian-bagian sistem teu perlu ngabutuhkeun seueur bait tambahan. Dua faktor bisa ngagabungkeun kana waktu, nunjukkeun yen aya loba sumber data kalawan rébuan kolom.
  3. Aggregation fitur: Fitur jelas ngagambarkeun hasil unggal scan ngaliwatan sakumpulan fitur, sahingga sistem pikeun ngagabungkeun hasil scan saméméhna tina sumber data sarua dina cara merenah. Ieu tiasa mangpaat pikeun ngahijikeun hasil scan tina sumber data tunggal dina sababaraha jalan.

Fitur-fiturna teras dikirim ka jasa prediksi dimana kami nganggo klasifikasi dumasar aturan sareng pembelajaran mesin pikeun ngaduga labél data unggal kolom. Ladenan ngandelkeun klasifikasi aturan sareng pembelajaran mesin sareng milih prediksi anu pangsaéna tina unggal obyék prediksi.

Klasifikasi aturan nyaéta heuristik manual, aranjeunna ngagunakeun itungan sareng koefisien pikeun normalisasi obyék kana rentang 0 dugi ka 100. Sakali skor awal sapertos dibangkitkeun pikeun tiap jinis data sareng nami kolom anu aya hubunganana sareng data éta, éta henteu kalebet dina "larangan naon waé. lists", The classifier aturan milih skor dinormalisasi pangluhurna diantara sakabeh tipe data.

Kusabab pajeulitna klasifikasi, ngan ukur ngandelkeun heuristik manual nyababkeun akurasi klasifikasi rendah, khususna pikeun data anu henteu terstruktur. Ku sabab kitu, kami ngembangkeun sistem pembelajaran mesin pikeun dianggo sareng klasifikasi data anu henteu terstruktur sapertos eusi sareng alamat pangguna. Pembelajaran mesin parantos ngamungkinkeun pikeun ngamimitian ngajauhan heuristik manual sareng nerapkeun sinyal data tambahan (sapertos nami kolom, data provenance), sacara signifikan ningkatkeun akurasi deteksi. Urang bakal teuleum jero kana arsitéktur pembelajaran mesin urang engké.

Ladenan prediksi nyimpen hasil pikeun tiap kolom sareng metadata ngeunaan waktos sareng kaayaan scan. Sakur konsumen sareng prosés hilir anu gumantung kana data ieu tiasa maca tina set data anu diterbitkeun sapopoé. Set ieu ngumpulkeun hasil sadaya padamelan scan ieu, atanapi API Katalog Data Real-Time. Ramalan anu diterbitkeun mangrupikeun pondasi pikeun ngalaksanakeun otomatis kawijakan privasi sareng kaamanan.

Tungtungna, saatos jasa ramalan nyerat sadaya data sareng sadaya ramalan disimpen, API Katalog Data kami tiasa ngabalikeun sadaya ramalan jinis data pikeun sumber daya sacara real waktos. Saban dinten sistem nyebarkeun set data anu ngandung sadaya ramalan panganyarna pikeun unggal aset.

data volatile

Nalika prosés di luhur dirancang pikeun aset anu tetep, lalu lintas anu henteu persisten ogé dianggap bagian tina data organisasi sareng tiasa penting. Ku sabab kitu, sistem nyadiakeun API online pikeun ngahasilkeun prediksi klasifikasi real-time pikeun lalulintas intermittent. Sistim forecasting real-time loba dipaké dina mengklasifikasikan lalulintas outbound, lalulintas inbound kana model learning mesin sarta data pangiklan.

Di dieu API nyokot dua argumen utama: konci grup jeung data atah nu bakal diprediksi. Ladenan ngalaksanakeun dimeunangkeun obyék anu sami sapertos anu dijelaskeun di luhur sareng ngagolongkeun objék babarengan pikeun konci anu sami. Fitur ieu ogé dirojong dina cache kegigihan pikeun recovery gagal. Pikeun unggal konci pangkelompok, jasa mastikeun yén éta parantos ningali conto anu cekap sateuacan nyauran jasa prediksi, nuturkeun prosés anu dijelaskeun di luhur.

optimasi

Pikeun nyeken sababaraha panyimpenan, kami nganggo perpustakaan sareng téknik pikeun ngaoptimalkeun bacaan tina panyimpenan panas [2] sareng mastikeun yén teu aya gangguan ti pangguna sanés anu ngaksés panyimpenan anu sami.

Pikeun tabel anu ageung pisan (50+ petabytes), sanaos sadaya optimasi sareng efisiensi mémori, sistem tiasa dianggo pikeun nyeken sareng ngitung sadayana sateuacan béak mémori. Barina ogé, scan éta diitung sagemblengna dina mémori jeung teu disimpen salila scan éta. Lamun tabel badag ngandung rébuan kolom kalawan clumps unstructured data, pakasaban bisa gagal alatan sumberdaya memori teu cukup nalika ngalakukeun prediksi dina sakabéh méja. Ieu bakal ngahasilkeun sinyalna ngurangan. Pikeun merangan ieu, kami ngaoptimalkeun sistem pikeun ngagunakeun speed scan salaku proxy pikeun kumaha ogé sistem handles beban gawé ayeuna. Kami nganggo speed salaku mékanisme prediksi pikeun ningali masalah memori tur predictively ngitung peta fitur. Dina waktu nu sarua, urang ngagunakeun data kirang ti biasa.

Sinyal data

Sistem klasifikasi ngan ukur saé sapertos sinyal tina data. Di dieu urang bakal ningali sadaya sinyal anu dianggo ku sistem klasifikasi.

  • Eusi Dumasar: Tangtosna, sinyal munggaran tur pangpentingna nyaéta eusi. Sampling Bernoulli dilakukeun dina unggal aset data anu urang scan sareng ékstrak fitur dumasar kana eusi data. Loba tanda asalna tina eusi. Sakur sajumlah objék ngambang tiasa waé, anu ngagambarkeun itungan sabaraha kali jinis sampel tinangtu katingal. Contona, urang bisa boga tanda tina jumlah surelek nu ditempo dina sampel, atawa tanda sabaraha emojis katempo dina sampel. Itungan fitur ieu tiasa dinormalisasi sareng dihijikeun dina scan anu béda.
  • provenance data: Hiji sinyal penting nu bisa mantuan lamun eusi geus robah tina tabel indungna. Hiji conto umum nyaéta data hashed. Nalika data dina tabel anak geus hashed, mindeng asalna tina tabel indungna, dimana eta tetep dina jelas. Data silsilah mantuan mengklasifikasikan jenis data nu tangtu lamun maranéhna teu dibaca jelas atawa dirobah tina tabel hulu.
  • Anotasi: Sinyal kualitas luhur sanés anu ngabantosan ngaidentipikasi data anu henteu terstruktur. Nyatana, annotations sareng data provenance tiasa damel babarengan pikeun nyebarkeun atribut kana aset data anu béda. Anotasi ngabantosan ngaidentipikasi sumber data anu henteu terstruktur, sedengkeun data katurunan tiasa ngabantosan ngalacak aliran data éta sapanjang gudang.
  • Suntikan data nyaéta téknik dimana karakter khusus anu teu kabaca ngahaja diwanohkeun kana sumber anu dikenal tina jinis data anu dipikanyaho. Lajeng, iraha wae urang nyeken eusi kalawan runtuyan karakter unreadable sarua, urang bisa infer yén eusi asalna tina tipe data dipikawanoh éta. Ieu mangrupikeun sinyal data kualitatif anu sami sareng annotations. Kacuali yén deteksi dumasar kana eusi ngabantosan mendakan data anu diasupkeun.

Ngukur Métrik

Komponén penting nyaéta metodologi anu ketat pikeun ngukur métrik. Métrik utama pikeun iterasi perbaikan klasifikasi nyaéta akurasi sareng ngémutan unggal labél, kalayan skor F2 anu paling penting.

Pikeun ngitung metrics ieu, hiji metodologi bebas pikeun labél aset data diperlukeun anu bebas tina sistem sorangan, tapi bisa dipaké pikeun ngabandingkeun langsung jeung eta. Di handap ieu urang ngajelaskeun kumaha urang ngumpulkeun bebeneran taneuh tina Facebook tur ngagunakeun eta pikeun ngalatih sistem klasifikasi urang.

Ngumpulkeun data nu bisa dipercaya

Urang ngumpulkeun data dipercaya tina unggal sumber didaptarkeun di handap kana tabel sorangan. Unggal méja tanggung jawab pikeun ngahijikeun nilai anu dititénan panganyarna tina sumber anu khusus. Unggal sumber gaduh pamariksaan kualitas data pikeun mastikeun yén nilai anu dititénan pikeun unggal sumber nyaéta kualitas luhur sareng ngandung labél jinis data panganyarna.

  • Konfigurasi platform logging: Widang nu tangtu dina tabel hive dieusian ku data nu tipe husus. Pamakéan sareng panyebaran data ieu janten sumber bebeneran anu tiasa dipercaya.
  • Labeling manual: Pamekar ngajaga sistem ogé labél éksternal dilatih pikeun labél kolom. Ieu umumna tiasa dianggo saé pikeun sadaya jinis data di gudang, sareng tiasa janten sumber utama bebeneran pikeun sababaraha data anu henteu terstruktur, sapertos data pesen atanapi eusi pangguna.
  • Kolom tina tabel indungna bisa ditandaan atawa annotated salaku ngandung data nu tangtu, sarta kami bisa ngalacak data éta dina tabel barudak.
  • Nyokot threads palaksanaan: threads palaksanaan di Facebook mawa tipe husus data. Ngagunakeun scanner urang salaku arsitéktur jasa, urang bisa sampel aliran nu geus dipikawanoh jenis data sarta ngirimkeunana ngaliwatan sistem. Sistim nu janji moal nyimpen data ieu.
  • tabél sampel: tabel hive badag, nu dipikawanoh pikeun ngandung sakabéh korpus data, ogé bisa dipaké salaku data latihan jeung dialirkeun scanner salaku layanan a. Ieu gede pikeun tabel kalawan rentang pinuh ku tipe data, ku kituna sampling kolom sacara acak sarua jeung sampling sakabéh set tina tipe data éta.
  • Data sintétik: Urang malah tiasa nganggo perpustakaan anu ngahasilkeun data dina laleur. Ieu tiasa dianggo saé pikeun jinis data umum anu sederhana sapertos alamat atanapi GPS.
  • Data Stewards: Program privasi biasana ngagunakeun pangurus data pikeun sacara manual napelkeun kawijakan kana potongan data. Ieu janten sumber bebeneran anu akurat pisan.

Urang ngagabungkeun unggal sumber utama bebeneran kana hiji korpus jeung sakabéh data éta. Tangtangan pangbadagna kalayan validitas nyaéta mastikeun éta wawakil gudang data. Upami teu kitu, mesin klasifikasi tiasa overtrain. Pikeun merangan ieu, sadaya sumber di luhur dianggo pikeun mastikeun kasaimbangan nalika ngalatih modél atanapi ngitung métrik. Sajaba ti éta, labél manusa seragam sampel kolom béda dina gudang jeung labél data sasuai jadi kumpulan bebeneran taneuh tetep unbiased.

Integrasi kontinyu

Pikeun mastikeun iteration gancang sarta perbaikan, hal anu penting pikeun salawasna ngukur kinerja sistem sacara real waktu. Urang tiasa ngukur unggal perbaikan klasifikasi ngalawan sistem ayeuna, ku kituna urang tiasa sacara taktis nungtun perbaikan ka hareup dumasar kana data. Di dieu urang tingali kumaha sistem ngalengkepan loop eupan balik anu disayogikeun ku data anu valid.

Lamun sistem scheduling encounters asset nu boga labél ti sumber dipercaya, urang ngajadwalkeun dua tugas. Anu mimiti ngagunakeun scanner produksi urang sahingga kamampuan produksi urang. Tugas kadua ngagunakeun scanner ngawangun panganyarna kalawan fitur panganyarna. Unggal tugas nyerat kaluaran na kana méja sorangan, méré tag versi sareng hasil klasifikasi.

Ieu kumaha urang ngabandingkeun hasil klasifikasi calon pelepasan sareng modél produksi sacara real waktos.

Nalika set data ngabandingkeun fitur RC sareng PROD, seueur variasi mesin klasifikasi ML jasa prediksi kacatet. Modél pembelajaran mesin anu pang anyarna diwangun, modél produksi ayeuna, sareng modél ékspérimén naon waé. Pendekatan anu sarua ngamungkinkeun urang pikeun "nyiksikan" versi béda tina model (agnostik kana classifiers aturan urang) jeung ngabandingkeun metrics sacara real waktu. Ieu ngagampangkeun pikeun nangtukeun iraha ékspérimén ML tos siap pikeun produksi.

Saban wengi, fitur RC anu diitung kanggo dinten éta dikirim ka pipa latihan ML, dimana modél dilatih dina fitur RC panganyarna sareng ngaevaluasi kinerjana ngalawan set data bebeneran taneuh.

Unggal isuk, modél ngalengkepan latihan sareng otomatis diterbitkeun salaku modél ékspérimén. Éta otomatis kalebet dina daptar ékspérimén.

Sababaraha hasil

Langkung ti 100 jinis data anu béda dilabélan kalayan akurasi anu luhur. Jenis-jenis anu terstruktur sapertos surelek sareng nomer telepon digolongkeun kalayan skor f2 langkung ageung tibatan 0,95. Jinis data gratis sapertos eusi sareng nami anu diciptakeun ku pangguna ogé ngalaksanakeun saé pisan, kalayan skor F2 langkung ageung tibatan 0,85.

Sajumlah badag kolom individu data pengkuh tur volatile digolongkeun poean sakuliah sakabéh repositories. Langkung ti 500 terabytes diseken unggal dinten di langkung ti 10 gudang data. Kaseueuran repositori ieu ngagaduhan langkung ti 98% cakupan.

Kana waktu, klasifikasi geus jadi pohara efisien, kalawan klasifikasi jobs dina aliran offline terus-terusan nyokot rata-rata 35 detik ti scanning asset pikeun ngitung prediksi pikeun tiap kolom.

Klasifikasi data scalable pikeun kaamanan sareng privasi
Sangu. 2. Diagram ngajéntrékeun aliran integrasi kontinyu ngartos kumaha RC objék dihasilkeun sarta dikirim ka model.

Klasifikasi data scalable pikeun kaamanan sareng privasi
Gambar 3. Diagram tingkat luhur komponén pembelajaran mesin.

Komponén sistem pembelajaran mesin

Dina bagian saméméhna, urang nyandak hiji beuleum jero kana sakabéh arsitéktur sistem, panyorot skala, optimasi, sarta offline na aliran data online. Dina bagian ieu, urang bakal ningali jasa ramalan sareng ngajelaskeun sistem pembelajaran mesin anu nguatkeun jasa ramalan.

Kalayan langkung ti 100 jinis data sareng sababaraha eusi anu henteu terstruktur sapertos data pesen sareng eusi pangguna, ngagunakeun heuristik manual murni nyababkeun akurasi klasifikasi subparametrik, khususna pikeun data anu henteu terstruktur. Kusabab ieu, kami ogé parantos ngembangkeun sistem pembelajaran mesin pikeun ngatasi pajeulitna data anu henteu terstruktur. Ngagunakeun mesin learning ngidinan Anjeun pikeun ngamimitian mindahkeun jauh ti heuristik manual tur dianggo kalayan fitur sarta sinyal data tambahan (contona, ngaran kolom, asal data) pikeun ngaronjatkeun akurasi.

Model anu dilaksanakeun ngulik representasi vektor [3] dina objék anu padet sareng jarang sacara misah. Ieu lajeng digabungkeun pikeun ngabentuk véktor, nu ngaliwatan runtuyan normalisasi bets [4] jeung léngkah nonlinearity pikeun ngahasilkeun hasil ahir. Hasil tungtung mangrupakeun angka floating titik antara [0-1] pikeun tiap labél, nunjukkeun kamungkinan yén conto milik tipe sensitipitas. Ngagunakeun PyTorch pikeun modél ngamungkinkeun urang pikeun mindahkeun gancang, sahingga pamekar di luar tim gancang nyieun sarta nguji parobahan.

Nalika ngarancang arsitéktur, penting pikeun ngamodelkeun objék anu jarang (contona téks) sareng padet (contona numerik) sacara misah kusabab bédana anu aya. Pikeun arsitéktur ahir, éta ogé penting pikeun ngalakukeun sapuan parameter pikeun manggihan nilai optimal pikeun laju learning, ukuran bets, sarta hyperparameters séjén. Pilihan optimizer oge hiji hyperparameter penting. Kami mendakan yén pangoptimal anu populér Adammindeng ngabalukarkeun overfitting, sedengkeun model mibanda SGD leuwih stabil. Aya nuansa tambahan anu urang kedah kalebet langsung dina modél. Contona, aturan statik nu ensured yén modél ngajadikeun prediksi deterministik lamun fitur ngabogaan nilai nu tangtu. Aturan statik ieu ditetepkeun ku klien kami. Kami mendakan yén ngalebetkeun aranjeunna langsung kana modél nyababkeun arsitéktur anu langkung mandiri sareng kuat, sabalikna tina ngalaksanakeun léngkah-léngkah pangolahan pikeun nanganan kasus-kasus ujung khusus ieu. Catet ogé yén aturan ieu ditumpurkeun nalika latihan supados henteu ngaganggu prosés pelatihan turunan gradién.

Anu jadi masalah

Salah sahiji tangtangan nyaéta ngumpulkeun data anu berkualitas luhur sareng dipercaya. Modél peryogi kapercayaan pikeun tiap kelas supados tiasa diajar asosiasi antara objék sareng labél. Dina bagian saméméhna, urang bahas métode ngumpulkeun data pikeun duanana ukuran sistem jeung latihan model. Analisis nunjukkeun yén kelas data sapertos kartu kiridit sareng nomer rekening bank henteu umum pisan di gudang urang. Hal ieu ngajadikeun hésé pikeun ngumpulkeun jumlah badag data dipercaya pikeun ngalatih model. Pikeun ngajawab masalah ieu, kami geus ngembangkeun prosés pikeun meunangkeun data bebeneran taneuh sintétik pikeun kelas ieu. Urang ngahasilkeun data sapertos pikeun jenis sénsitip kaasup SSN, angka kartu kiridit и IBAN-angka nu model teu bisa ngaduga saméméhna. Pendekatan ieu ngamungkinkeun tipe data sénsitip diolah tanpa resiko privasi pakait sareng nyumputkeun data sénsitip sabenerna.

Di sagigireun masalah bebeneran taneuh, aya isu arsitéktur kabuka urang keur dipake dina, kayaning robah isolasi и eureun mimiti. Ngarobih isolasi penting pikeun mastikeun yén nalika parobihan anu béda-béda dilakukeun pikeun bagian-bagian anu béda dina jaringan, dampakna diisolasi ka kelas khusus sareng henteu gaduh dampak anu lega dina pagelaran ramalan sacara umum. Ngaronjatkeun kriteria eureun mimiti oge kritis ambéh urang bisa ngeureunkeun prosés latihan dina titik stabil pikeun sakabéh kelas, tinimbang dina titik dimana sababaraha kelas overtrain sarta séjén henteu.

Pentingna fitur

Nalika fitur anyar diwanohkeun kana modél, urang hoyong terang dampak na kana modél éta. Kami ogé hoyong mastikeun yén prediksi tiasa diinterpretasi ku manusa supados urang tiasa ngartos fitur naon waé anu dianggo pikeun unggal jinis data. Pikeun tujuan ieu kami geus dimekarkeun sarta diwanohkeun ku kelas pentingna fitur pikeun modél PyTorch. Catet yén ieu béda ti sakabéh pentingna fitur, nu biasana dirojong, sabab teu ngabejaan urang fitur nu penting pikeun kelas nu tangtu. Urang ngukur pentingna hiji obyék ku ngitung kanaékan kasalahan prediksi sanggeus nyusun ulang objék. Fitur "penting" nalika swap nilai ningkatkeun kasalahan modél sabab dina hal ieu modél ngandelkeun fitur pikeun ngaramalkeunana. Hiji fitur "henteu penting" nalika shuffling nilai na ninggalkeun kasalahan model unchanged, saprak dina hal ieu model teu dipalire eta [5].

Pentingna fitur pikeun unggal kelas ngamungkinkeun urang pikeun ngajantenkeun modél tiasa diinterpretasi ku kituna urang tiasa ningali naon anu ditingali modél nalika ngaramal labél. Contona, nalika urang analisa ADDR, teras kami ngajamin yén tanda pakait sareng alamat, sapertos AlamatLinesCount, Rengking luhur dina tabel pentingna fitur pikeun tiap kelas ku kituna intuisi manusa urang cocog ogé jeung naon model geus diajar.

evaluasi

Kadé nangtukeun hiji métrik tunggal pikeun suksés. Urang milih F2 - kasaimbangan antara ngelingan jeung akurasi (bias ngelingan rada gedé). Ngelingan langkung penting pikeun kasus panggunaan privasi tibatan akurasi sabab penting pikeun tim henteu sono data anu sénsitip (bari mastikeun akurasi anu lumrah). Evaluasi kinerja F2 sabenerna model urang téh saluareun ruang lingkup makalah ieu. Sanajan kitu, kalawan tuning ati urang bisa ngahontal luhur (0,9+) skor F2 pikeun kelas sénsitip pangpentingna.

Karya patali

Aya seueur algoritma pikeun klasifikasi otomatis dokumén anu henteu terstruktur ngagunakeun sababaraha metode sapertos cocog pola, milarian kasaruaan dokumen sareng sagala rupa metode pembelajaran mesin (Bayesian, tangkal kaputusan, tatangga k-pangcaketna sareng seueur anu sanésna) [6]. Salah sahiji ieu tiasa dianggo salaku bagian tina klasifikasi. Nanging, masalahna nyaéta skalabilitas. Pendekatan klasifikasi dina tulisan ieu condong kana kalenturan sareng kinerja. Hal ieu ngamungkinkeun urang pikeun ngarojong kelas anyar dina mangsa nu bakal datang sarta tetep latency low.

Aya ogé loba gawé dina sidik data. Salaku conto, panulis dina [7] ngajelaskeun solusi anu museurkeun kana masalah nangkep bocor data anu sénsitip. Anggapan dasar nyaéta yén data éta tiasa sidik sidik pikeun cocog sareng sakumpulan data sénsitip anu dipikanyaho. Panulis dina [8] ngajelaskeun masalah anu sami ngeunaan bocor privasi, tapi solusina dumasar kana arsitéktur Android khusus sareng ngan ukur digolongkeun upami tindakan pangguna nyababkeun ngabagi inpormasi pribadi atanapi upami aplikasi dasarna bocor data pangguna. Kaayaan di dieu rada béda sabab data pangguna ogé tiasa pisan henteu terstruktur. Ku sabab kitu, urang peryogi téknik anu langkung kompleks tibatan sidik jari.

Tungtungna, pikeun ngatasi kakurangan data pikeun sababaraha jinis data sénsitip, kami ngenalkeun data sintétis. Aya awak badag literatur on augmentation data, contona, pangarang dina [9] digali peran suntik noise salila latihan jeung observasi hasil positif dina learning diawasan. Pendekatan kami pikeun privasi béda sabab ngenalkeun data ribut tiasa kontraproduktif, sareng urang museurkeun kana data sintétik anu kualitas luhur.

kacindekan

Dina makalah ieu, urang dibere sistem anu bisa mengklasifikasikan sapotong data. Hal ieu ngamungkinkeun urang nyieun sistem pikeun ngalaksanakeun kawijakan privasi sarta kaamanan. Kami parantos nunjukkeun yén infrastruktur scalable, integrasi kontinyu, pembelajaran mesin sareng jaminan data kualitas luhur maénkeun peran konci dina kasuksésan seueur inisiatif privasi urang.

Aya seueur arah pikeun padamelan anu bakal datang. Ieu bisa ngawengku nyadiakeun rojongan pikeun data unschematized (file), ngagolongkeun teu ukur tipe data tapi ogé tingkat sensitipitas, sarta ngagunakeun diajar timer diawasan salila latihan ku generating conto sintétik akurat. Nu, kahareupna bakal nulungan model ngurangan karugian ku jumlah greatest. Karya anu bakal datang ogé tiasa difokuskeun kana alur kerja panalungtikan, dimana urang ngalangkungan deteksi sareng nyayogikeun analisa akar sabab tina sagala rupa pelanggaran privasi. Ieu bakal ngabantosan dina kasus sapertos analisis sensitipitas (nyaéta naha sensitipitas privasi tina jinis data luhur (contona IP pangguna) atanapi rendah (contona IP internal Facebook)).

daftar pustaka

  1. Daud Ben-David, Tamar Domany, jeung Abigail Tarem. Klasifikasi data perusahaan nganggo téknologi wéb semantik. Dina Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, jeung Birte Glimm, redaktur, The Semantic Web - ISWC 2010, kaca 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, jeung Sanjeev Kumar. f4: Sistim neundeun BLOB haneut Facebook urang. Di Simposium USENIX ka-11 ngeunaan Desain sareng Implementasi Sistem Operasi (OSDI 14), kaca 383-398, Broomfield, CO, Oktober 2014. Asosiasi USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, jeung Jeff Dean. Répréséntasi anu disebarkeun kecap sareng frasa sareng komposisina. Dina C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, jeung K. Q. Weinberger, redaktur, Kamajuan dina Sistem Ngolah Émbaran Neural 26, kaca 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe jeung Christian Szegedy. Normalisasi bets: Ngagancangkeun latihan jaringan jero ku cara ngurangan shift kovariat internal. Dina Francis Bach jeung David Blei, éditor, Prosiding Konférénsi Internasional 32nd on Machine Learning, jilid 37 tina Prosedur Panalungtikan Mesin Learning, kaca 448-456, Lille, Perancis, 07-09 Jul 2015. PMLR.
  5. Leo Breiman. leuweung acak. Mach. Diajar., 45(1):5–32, Oktober 2001.
  6. Thair Nu Phyu. Survey téhnik klasifikasi dina data mining.
  7. X. Shu, D. Yao, jeung E. Bertino. Deteksi privasi-preserving tina paparan data sénsitip. Transaksi IEEE on Émbaran Forensics sarta Kaamanan, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, jeung Xiaoyang Wang. Appintent: Nganalisis pangiriman data sénsitip dina android pikeun deteksi leakage privasi. kaca 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, jeung Quoc V. Le. Augmentation data unsupervised.

Klasifikasi data scalable pikeun kaamanan sareng privasi
Pilarian detil ngeunaan kumaha carana kéngingkeun profési anu dipilarian ti mimiti atanapi Level Up dina hal kaahlian sareng gaji ku cara nyandak kursus online SkillFactory:

Langkung kursus

sumber: www.habr.com

Tambahkeun komentar