Klasifikasi data sing bisa diukur kanggo keamanan lan privasi

Klasifikasi data sing bisa diukur kanggo keamanan lan privasi

Klasifikasi data adhedhasar isi minangka masalah mbukak. Sistem pencegahan mundhut data tradisional (DLP) ngatasi masalah iki kanthi sidik jari data sing cocog lan ngawasi titik pungkasan kanggo sidik jari. Amarga akeh sumber data sing terus-terusan ganti ing Facebook, pendekatan iki ora mung bisa diukur, nanging uga ora efektif kanggo nemtokake lokasi data kasebut. Makalah iki fokus ing sistem end-to-end sing dibangun kanggo ndeteksi jinis semantik sensitif ing Facebook kanthi skala lan kanthi otomatis ngetrapake panyimpenan data lan kontrol akses.

Pendekatan sing diterangake ing kene yaiku sistem privasi end-to-end pisanan sing nyoba ngatasi masalah iki kanthi nggabungake sinyal data, machine learning, lan teknik sidik jari tradisional kanggo peta lan klasifikasi kabeh data ing Facebook. Sistem sing diterangake dioperasikake ing lingkungan produksi, entuk skor F2 rata-rata 0,9+ ing macem-macem kelas privasi nalika ngolah sumber daya data sing akeh ing puluhan repositori. Ngenalke terjemahan kertas ArXiv Facebook babagan klasifikasi data sing bisa diukur kanggo keamanan lan privasi adhedhasar pembelajaran mesin.

Pambuka

Saiki, organisasi ngumpulake lan nyimpen akeh data ing macem-macem format lan lokasi [1], banjur data dikonsumsi ing akeh panggonan, kadhangkala disalin utawa di-cache kaping pirang-pirang, nyebabake informasi bisnis sing penting lan sensitif kasebar ing akeh data perusahaan. toko. Nalika organisasi dibutuhake kanggo nyukupi syarat legal utawa peraturan tartamtu, kayata tundhuk karo peraturan ing proses sipil, dadi perlu kanggo ngumpulake data babagan lokasi data sing dibutuhake. Nalika peraturan privasi nyatakake yen organisasi kudu nutupi kabeh Nomer Keamanan Sosial (SSN) nalika nuduhake informasi pribadhi karo entitas sing ora sah, langkah pisanan sing alami yaiku nggoleki kabeh SSN ing toko data organisasi. Ing kahanan kasebut, klasifikasi data dadi kritis [1]. Sistem klasifikasi bakal ngidini organisasi kanthi otomatis ngetrapake kabijakan privasi lan keamanan, kayata ngaktifake kabijakan kontrol akses, retensi data. Facebook ngenalake sistem sing dibangun ing Facebook sing nggunakake macem-macem sinyal data, arsitektur sistem skalabel, lan pembelajaran mesin kanggo nemokake jinis data semantik sing sensitif.

Panemuan lan klasifikasi data yaiku proses nemokake lan menehi label data supaya informasi sing relevan bisa ditemokake kanthi cepet lan efisien nalika dibutuhake. Proses saiki rada manual lan kalebu mriksa hukum utawa peraturan sing relevan, nemtokake jinis informasi apa sing kudu dianggep sensitif lan tingkat sensitivitas sing beda-beda, banjur mbangun kelas lan kabijakan klasifikasi sing cocog [1]. Nyegah mundhut data (DLP) banjur sidik jari data lan ngawasi titik pungkasan hilir kanggo entuk sidik jari. Nalika dealing karo gudang abot aset karo petabytes data, pendekatan iki mung ora ukuran.

Tujuane yaiku mbangun sistem klasifikasi data sing ukurane dadi data pangguna sing kuat lan sementara, tanpa watesan tambahan ing jinis utawa format data. Iki minangka tujuan sing wani, lan mesthi ana tantangan. Rekaman data sing diwenehake bisa nganti ewonan karakter.

Klasifikasi data sing bisa diukur kanggo keamanan lan privasi
Gambar 1. Aliran prakiraan online lan offline

Mula, kita kudu makili kanthi efisien nggunakake sakumpulan fitur umum sing mengko bisa digabung lan gampang dipindhah. Fitur kasebut ora mung nyedhiyakake klasifikasi sing akurat, nanging uga menehi keluwesan lan ekstensibilitas kanggo nambah lan nemokake jinis data anyar kanthi gampang ing mangsa ngarep. Kapindho, sampeyan kudu ngatasi tabel offline gedhe. Data awet bisa disimpen ing tabel sing ukurane akeh petabyte. Iki bisa nyebabake kacepetan scan luwih alon. Katelu, kita kudu netepi klasifikasi SLA sing ketat babagan data molah malih. Iki meksa sistem dadi efisien, cepet lan akurat. Pungkasan, kita kudu nyedhiyakake klasifikasi data latensi sing sithik kanggo data sing molah malih kanggo nindakake klasifikasi wektu nyata uga kanggo kasus panggunaan Internet.

Makalah iki njlèntrèhaké cara kita nangani tantangan ing ndhuwur lan nampilake sistem klasifikasi sing cepet lan bisa diukur sing nggolongake unsur data saka kabeh jinis, format, lan sumber adhedhasar sakumpulan fitur sing umum. Kita ngembangake arsitektur sistem lan nggawe model pembelajaran mesin khusus kanggo nggolongake data offline lan online kanthi cepet. Makalah iki diatur minangka nderek: Bagean 2 presents rancangan sakabèhé saka sistem. Bagean 3 ngrembug bagean saka sistem machine learning. Bagian 4 lan 5 nyorot karya sing gegandhengan lan njelasake arah kerja ing mangsa ngarep.

arsitektur

Kanggo ngatasi tantangan data online sing terus-terusan lan skala Facebook, sistem klasifikasi kasebut duwe rong aliran sing kapisah, sing bakal dibahas kanthi rinci.

Data Sustainable

Kaping pisanan, sistem kudu sinau babagan akeh aset informasi Facebook. Kanggo saben repositori, sawetara informasi dhasar diklumpukake, kayata pusat data sing ngemot data kasebut, sistem sing ngemot data kasebut, lan aset sing ana ing gudang data tartamtu. Iki nggawe katalog metadata sing ngidini sistem bisa njupuk data kanthi efisien tanpa kakehan klien lan sumber daya sing digunakake dening insinyur liyane.

Katalog metadata iki nyedhiyakake sumber resmi kanggo kabeh aset sing dipindai lan ngidini sampeyan nglacak status macem-macem aset. Nggunakake informasi iki, prioritas jadwal ditetepake adhedhasar data sing diklumpukake lan informasi internal saka sistem, kayata wektu aset pungkasan kasil dipindai lan wektu digawe, uga memori kepungkur lan syarat CPU kanggo aset kasebut yen wis dipindai sadurunge. Banjur, kanggo saben sumber data (minangka sumber daya kasedhiya), proyek diarani bener mindai sumber daya.

Saben proyek minangka file binar kompilasi sing nindakake Bernoulli sampling ing data paling anyar sing kasedhiya kanggo saben aset. Aset kasebut dipérang dadi kolom individu, ing ngendi asil klasifikasi saben kolom diproses kanthi mandiri. Kajaba iku, sistem mindai data sing jenuh ing kolom kasebut. JSON, array, struktur sing dienkode, URL, basis data serial 64, lan liya-liyane kabeh wis dipindai. Iki bisa nambah wektu eksekusi pindai kanthi signifikan amarga tabel siji bisa ngemot ewonan kolom bersarang ing gumpalan. json.

Kanggo saben baris sing dipilih ing aset data, sistem klasifikasi ngekstrak float lan obyek teks saka isi lan nggandhengake saben obyek bali menyang kolom saka ngendi iku dijupuk. Output saka langkah ekstraksi fitur yaiku peta kabeh fitur kanggo saben kolom sing ditemokake ing aset data.

Apa pratandha kanggo?

Konsep atribut minangka kunci. Tinimbang sifat ngambang lan teks, kita bisa ngliwati conto string mentah sing langsung diekstrak saka saben sumber data. Kajaba iku, model machine learning bisa dilatih langsung ing saben sampel, tinimbang atusan fitur pitungan sing mung nyoba kanggo kira-kira sampel. Ana sawetara alasan kanggo iki:

  1. Privasi pisanan: Sing paling penting, konsep fitur ngidini kita nyimpen ing memori mung pola sing dijupuk. Iki mesthekake yen kita nyimpen conto kanggo siji waé lan ora tau log liwat kita dhewe efforts . Iki penting banget kanggo data sing molah malih, amarga layanan kasebut kudu njaga sawetara negara klasifikasi sadurunge menehi prediksi.
  2. Memori: Sawetara conto bisa nganti ewonan karakter. Nyimpen data kasebut lan ngirim menyang bagean saka sistem ora perlu nggunakake akeh bita tambahan. Loro faktor bisa gabungke liwat wektu, diwenehi sing ana akeh sumber data karo ewu kolom.
  3. Agregasi fitur: Fitur kanthi jelas nggambarake asil saben pindai liwat sakumpulan fitur, ngidini sistem nggabungake asil scan sadurunge saka sumber data sing padha kanthi cara sing trep. Iki bisa migunani kanggo nglumpukake asil pindai saka sumber data siji ing pirang-pirang cara.

Fitur kasebut banjur dikirim menyang layanan prediksi ing ngendi kita nggunakake klasifikasi adhedhasar aturan lan machine learning kanggo prédhiksi label data saben kolom. Layanan kasebut gumantung ing klasifikasi aturan lan pembelajaran mesin lan milih prediksi paling apik sing diwenehake saka saben obyek prediksi.

Klasifikasi aturan minangka heuristik manual, nggunakake kalkulasi lan koefisien kanggo normalake obyek menyang kisaran 0 nganti 100. Sawise skor awal kasebut digawe kanggo saben jinis data lan jeneng kolom sing ana gandhengane karo data kasebut, mula ora kalebu ing "larangan". dhaptar", Klasifikasi aturan milih skor normal paling dhuwur ing antarane kabeh jinis data.

Amarga kerumitan klasifikasi, mung ngandelake heuristik manual nyebabake akurasi klasifikasi sing kurang, utamane kanggo data sing ora terstruktur. Mulane, kita ngembangake sistem pembelajaran mesin kanggo nggarap klasifikasi data sing ora terstruktur kayata isi lan alamat pangguna. Machine learning wis bisa kanggo miwiti pindhah saka heuristik manual lan aplikasi sinyal data tambahan (eg jeneng kolom, provenance data), Ngapikake akurasi deteksi. Kita bakal nyilem jero arsitektur machine learning kita mengko.

Layanan prediksi nyimpen asil kanggo saben kolom bebarengan karo metadata babagan wektu lan negara scan. Sembarang konsumen lan proses hilir sing gumantung ing data iki bisa maca saka dataset sing diterbitake saben dina. Set iki nglumpukake asil kabeh proyek pindai iki, utawa API Katalog Data Real-Time. Prakiraan sing diterbitake minangka dhasar kanggo ngetrapake otomatis privasi lan kabijakan keamanan.

Pungkasan, sawise layanan prakiraan nulis kabeh data lan kabeh ramalan disimpen, API Katalog Data kita bisa ngasilake kabeh prakiraan jinis data kanggo sumber daya ing wektu nyata. Saben dina sistem nerbitake dataset sing ngemot kabeh ramalan paling anyar kanggo saben aset.

data molah malih

Nalika proses ing ndhuwur dirancang kanggo aset sing terus-terusan, lalu lintas sing ora terus-terusan uga dianggep minangka bagian saka data organisasi lan bisa uga penting. Mulane, sistem kasebut nyedhiyakake API online kanggo ngasilake prediksi klasifikasi wektu nyata kanggo lalu lintas intermiten. Sistem prakiraan wektu nyata digunakake akeh kanggo nggolongake lalu lintas metu, lalu lintas mlebu menyang model pembelajaran mesin lan data pengiklan.

Ing kene, API njupuk rong argumen utama: kunci pengelompokan lan data mentah sing bakal diprediksi. Layanan nindakake pengangkatan obyek sing padha kaya sing diterangake ing ndhuwur lan nglumpukake obyek bebarengan kanggo tombol sing padha. Fitur iki uga didhukung ing cache kegigihan kanggo Recovery Gagal. Kanggo saben kunci klompok, layanan kasebut mesthekake yen wis ndeleng conto sing cukup sadurunge nelpon layanan prediksi, sawise proses kasebut ing ndhuwur.

Optimisasi

Kanggo mindhai sawetara panyimpenan, kita nggunakake perpustakaan lan Techniques kanggo maca ngoptimalake saka panyimpenan panas [2] lan mesthekake yen ora ana gangguan saka pangguna liyane ngakses panyimpenan padha.

Kanggo tabel sing gedhe banget (50+ petabyte), sanajan kabeh optimasi lan efisiensi memori, sistem bisa digunakake kanggo mindai lan ngitung kabeh sadurunge kehabisan memori. Sawise kabeh, pindai diwilang kabeh ing memori lan ora disimpen sajrone pindai. Yen tabel gedhe ngemot ewu kolom karo clumps unstructured data, proyek bisa gagal amarga sumber memori ora cukup nalika nindakake prediksi ing kabeh meja. Iki bakal nyebabake nyuda jangkoan. Kanggo nglawan iki, kita ngoptimalake sistem kanggo nggunakake kacepetan scan minangka proxy kanggo carane sistem nangani beban kerja saiki. Kita nggunakake kacepetan minangka mekanisme prediktif kanggo ndeleng masalah memori lan predictively ngetung peta fitur. Ing wektu sing padha, kita nggunakake data kurang saka biasanipun.

Sinyal data

Sistem klasifikasi mung apik minangka sinyal saka data. Ing kene kita bakal ndeleng kabeh sinyal sing digunakake dening sistem klasifikasi.

  • Content Based: Mesthine, sinyal pisanan lan paling penting yaiku isi. Sampling Bernoulli ditindakake ing saben aset data sing kita pindai lan ekstrak fitur adhedhasar isi data. Akeh pratandha teka saka isi. Sembarang jumlah obyek ngambang bisa, sing makili petungan kaping pirang-pirang jinis sampel tartamtu wis katon. Contone, kita bisa uga duwe pratandha saka jumlah email sing katon ing conto, utawa tandha pirang-pirang emoji sing katon ing sampel. Petungan fitur iki bisa dinormalisasi lan dikumpulake ing macem-macem scan.
  • Data provenance: Sinyal penting sing bisa mbantu nalika isi wis diganti saka tabel induk. Conto umum yaiku data hash. Nalika data ing tabel anak wis hashed, asring teka saka tabel tiyang sepah, ngendi iku tetep ing cetha. Data garis keturunan mbantu nggolongake jinis data tartamtu nalika ora diwaca kanthi cetha utawa diowahi saka tabel hulu.
  • Anotasi: Sinyal kualitas dhuwur liyane sing mbantu ngenali data sing ora terstruktur. Nyatane, anotasi lan data asale bisa bebarengan kanggo nyebarake atribut ing macem-macem aset data. Anotasi mbantu ngenali sumber data sing ora terstruktur, dene data garis keturunan bisa mbantu nglacak aliran data kasebut ing saindhenging repositori.
  • Injeksi data minangka teknik ing ngendi karakter khusus lan ora bisa diwaca kanthi sengaja dilebokake ing sumber jinis data sing dikenal. Banjur, saben kita mindhai konten kanthi urutan karakter sing ora bisa diwaca sing padha, kita bisa nyimpulake manawa konten kasebut asale saka jinis data sing dikenal. Iki minangka sinyal data kualitatif liyane sing padha karo anotasi. Kajaba yen deteksi adhedhasar konten mbantu nemokake data sing dilebokake.

Metrik Pengukuran

Komponen penting yaiku metodologi sing ketat kanggo ngukur metrik. Metrik utama kanggo pengulangan perbaikan klasifikasi yaiku presisi lan kelingan saben label, kanthi skor F2 sing paling penting.

Kanggo ngetung metrik kasebut, metodologi independen kanggo menehi label aset data dibutuhake sing ora gumantung saka sistem kasebut, nanging bisa digunakake kanggo mbandhingake langsung. Ing ngisor iki kita njlèntrèhaké cara ngumpulake bebener dhasar saka Facebook lan digunakake kanggo nglatih sistem klasifikasi kita.

Koleksi data sing dipercaya

Kita nglumpukake data sing dipercaya saka saben sumber ing ngisor iki menyang tabel dhewe. Saben tabel tanggung jawab kanggo nglumpukake nilai sing diamati paling anyar saka sumber kasebut. Saben sumber duwe pamriksa kualitas data kanggo mesthekake yen nilai sing diamati kanggo saben sumber kualitas dhuwur lan ngemot label jinis data paling anyar.

  • Konfigurasi platform logging: Kolom tartamtu ing tabel hive diisi karo data saka jinis tartamtu. Panganggone lan panyebaran data iki minangka sumber bebener sing bisa dipercaya.
  • Labeling manual: Pangembang sing njaga sistem uga labeler eksternal dilatih kanggo menehi label kolom. Iki umume bisa digunakake kanggo kabeh jinis data ing gudang, lan bisa dadi sumber utama bebener kanggo sawetara data sing ora terstruktur, kayata data pesen utawa konten pangguna.
  • Kolom saka tabel induk bisa ditandhani utawa dianotasi minangka ngemot data tartamtu, lan kita bisa nglacak data kasebut ing tabel bocah-bocah.
  • Njupuk utas eksekusi: utas eksekusi ing Facebook nggawa jinis data tartamtu. Nggunakake scanner kita minangka arsitektur layanan, kita bisa sampel stream sing wis dikenal jinis data lan ngirim liwat sistem. Sistem janji ora nyimpen data iki.
  • Tabel conto: Tabel hive gedhe, sing dikenal ngemot kabeh korpus data, uga bisa digunakake minangka data latihan lan ngliwati pemindai minangka layanan. Iki apik kanggo tabel kanthi macem-macem jinis data, supaya sampling kolom kanthi acak padha karo sampling kabeh jinis data kasebut.
  • Data sintetis: Kita malah bisa nggunakake perpustakaan sing ngasilake data kanthi cepet. Iki bisa digunakake kanggo jinis data umum sing prasaja kayata alamat utawa GPS.
  • Data Steward: Program privasi biasane nggunakake steward data kanggo nemtokake kabijakan kanthi manual menyang potongan data. Iki minangka sumber bebener sing akurat banget.

Kita gabungke saben sumber utama bebener dadi siji korpus karo kabeh data kasebut. Tantangan paling gedhe kanthi validitas yaiku nggawe manawa minangka wakil saka repositori data. Yen ora, mesin klasifikasi bisa overtrain. Kanggo nglawan iki, kabeh sumber ing ndhuwur digunakake kanggo njamin keseimbangan nalika nglatih model utawa ngitung metrik. Kajaba iku, labelers manungsa seragam sampel kolom beda ing repositori lan label data kasebut supaya koleksi bebener lemah tetep ora bias.

Integrasi terus-terusan

Kanggo njamin pengulangan lan perbaikan kanthi cepet, penting kanggo ngukur kinerja sistem kanthi nyata. Kita bisa ngukur saben dandan klasifikasi marang sistem saiki, supaya kita bisa kanthi taktik nuntun perbaikan mangsa adhedhasar data. Ing kene kita ndeleng carane sistem ngrampungake loop umpan balik sing diwenehake dening data sing bener.

Nalika sistem jadwal ketemu aset sing duwe label saka sumber dipercaya, kita gawe jadwal loro tugas. Pisanan nggunakake scanner produksi kita lan kanthi mangkono kemampuan produksi kita. Tugas kapindho nggunakake scanner mbangun paling anyar kanthi fitur paling anyar. Saben tugas nulis output menyang tabel dhewe, menehi tag versi bebarengan karo asil klasifikasi.

Iki carane kita mbandhingake asil klasifikasi calon rilis lan model produksi ing wektu nyata.

Nalika set data mbandhingake fitur RC lan PROD, akeh variasi mesin klasifikasi ML layanan prediksi kacathet. Model pembelajaran mesin sing paling anyar dibangun, model produksi saiki, lan model eksperimen apa wae. Pendekatan sing padha ngidini kita "ngiris" macem-macem versi model (agnostik kanggo klasifikasi aturan kita) lan mbandhingake metrik ing wektu nyata. Iki nggawe gampang kanggo nemtokake yen eksperimen ML wis siyap kanggo produksi.

Saben wengi, fitur RC sing diwilang kanggo dina kasebut dikirim menyang pipa latihan ML, ing ngendi model kasebut dilatih babagan fitur RC paling anyar lan ngevaluasi kinerjane marang dataset bebener lemah.

Saben esuk, model kasebut ngrampungake latihan lan diterbitake kanthi otomatis minangka model eksperimen. Iku kanthi otomatis kalebu ing dhaftar eksperimen.

Sawetara asil

Luwih saka 100 macem-macem jinis data diwenehi label kanthi akurasi sing dhuwur. Jinis sing terstruktur kanthi apik kayata email lan nomer telpon diklasifikasikake kanthi skor f2 luwih saka 0,95. Jinis data gratis kayata konten lan jeneng sing digawe pangguna uga nindakake kanthi apik, kanthi skor F2 luwih saka 0,85.

Akeh kolom data sing terus-terusan lan molah malih diklasifikasikake saben dina ing kabeh repositori. Luwih saka 500 terabyte dipindai saben dina ing luwih saka 10 gudang data. Umume repositori kasebut duwe luwih saka 98% jangkoan.

Suwe-suwe, klasifikasi dadi efisien banget, kanthi proyek klasifikasi ing aliran offline sing terus-terusan njupuk rata-rata 35 detik saka mindhai aset kanggo ngitung prediksi kanggo saben kolom.

Klasifikasi data sing bisa diukur kanggo keamanan lan privasi
Gabah. 2. Diagram njlentrehke aliran integrasi terus kanggo mangerteni carane obyek RC kui lan dikirim menyang model.

Klasifikasi data sing bisa diukur kanggo keamanan lan privasi
Gambar 3. Diagram tingkat dhuwur saka komponen machine learning.

Komponen sistem pembelajaran mesin

Ing bagean sadurunge, kita nyilem jero babagan arsitektur sistem sakabèhé, nyorot skala, optimasi, lan aliran data offline lan online. Ing bagean iki, kita bakal ndeleng layanan prakiraan lan njlèntrèhaké sistem learning machine sing nguwasani layanan prakiraan.

Kanthi luwih saka 100 jinis data lan sawetara konten sing ora terstruktur kayata data pesen lan konten pangguna, nggunakake heuristik manual murni ngasilake akurasi klasifikasi subparametrik, utamane kanggo data sing ora terstruktur. Mulane, kita uga wis ngembangake sistem pembelajaran mesin kanggo ngatasi kerumitan data sing ora terstruktur. Nggunakake machine learning ngidini sampeyan miwiti pindhah saka heuristik manual lan nggarap fitur lan sinyal data tambahan (contone, jeneng kolom, asal data) kanggo nambah akurasi.

Model sing diimplementasikake nyinaoni perwakilan vektor [3] liwat obyek sing kandhel lan jarang kanthi kapisah. Iki banjur digabungake kanggo mbentuk vektor, sing ngliwati seri normalisasi batch [4] lan langkah nonlinearitas kanggo ngasilake asil pungkasan. Asil pungkasan minangka nomer titik ngambang ing antarane [0-1] kanggo saben label, nuduhake kemungkinan yen conto kasebut kalebu jinis sensitivitas kasebut. Nggunakake PyTorch kanggo model ngidini kita mindhah luwih cepet, ngidini pangembang ing njaba tim bisa nggawe lan nyoba owah-owahan kanthi cepet.

Nalika ngrancang arsitektur, penting kanggo model obyek sing jarang (contone teks) lan sing padhet (contone numerik) amarga ana bedane. Kanggo arsitektur final, iku uga penting kanggo nindakake Sapuan parameter kanggo nemokake nilai optimal kanggo learning rate, ukuran kumpulan, lan hyperparameters liyane. Pilihan saka optimizer uga hyperparameter penting. Kita nemokake manawa pangoptimal sing populer Adamasring ndadékaké kanggo overfitting, déné model karo SGD luwih stabil. Ana nuansa tambahan sing kudu dilebokake langsung ing model kasebut. Contone, aturan statis sing njamin model nggawe prediksi deterministik nalika fitur duwe nilai tartamtu. Aturan statis iki ditetepake dening klien kita. Kita nemokake manawa nggabungake langsung menyang model kasebut ngasilake arsitektur sing luwih mandiri lan mantep, tinimbang ngleksanakake langkah pemrosesan kanggo nangani kasus pinggiran khusus kasebut. Elinga uga yen aturan kasebut dipateni sajrone latihan supaya ora ngganggu proses latihan turunan gradien.

Masalah

Salah sawijining tantangan yaiku ngumpulake data sing berkualitas lan dipercaya. Model kasebut mbutuhake kapercayan kanggo saben kelas supaya bisa sinau asosiasi antarane obyek lan label. Ing bagean sadurunge, kita ngrembug cara pengumpulan data kanggo pangukuran sistem lan latihan model. Analisis kasebut nuduhake yen kelas data kayata kertu kredit lan nomer akun bank ora umum banget ing gudang kita. Iki nggawe angel ngumpulake data sing bisa dipercaya kanggo nglatih model. Kanggo ngatasi masalah iki, kita wis ngembangake proses kanggo entuk data bebener lemah sintetik kanggo kelas kasebut. We generate data kuwi kanggo jinis sensitif kalebu SSN, nomer kertu kredit и IBAN-nomer sing model ora bisa prédhiksi sadurunge. Pendekatan iki ngidini jinis data sensitif bisa diproses tanpa risiko privasi sing ana gandhengane karo ndhelikake data sensitif sing nyata.

Kejabi masalah bebener lemah, ana masalah arsitektur mbukak sing lagi ditindakake, kayata ngganti isolasi и mandeg awal. Ngganti isolasi penting kanggo mesthekake yen nalika owah-owahan beda digawe kanggo macem-macem bagean saka jaringan, impact diisolasi kanggo kelas tartamtu lan ora duwe impact amba ing kinerja prakiraan sakabèhé. Ngapikake kritéria mandheg awal uga kritis supaya kita bisa mungkasi proses latihan ing titik sing stabil kanggo kabeh kelas, tinimbang ing sawetara kelas overtrain lan liyane ora.

Pentinge fitur

Nalika fitur anyar dikenalaké menyang model, kita pengin ngerti impact sakabèhé ing model. Kita uga pengin mesthekake yen prediksi kasebut bisa diinterpretasikake manungsa supaya bisa ngerti persis apa fitur sing digunakake kanggo saben jinis data. Kanggo maksud iki kita wis dikembangaké lan ngenalaken dening kelas pentinge fitur kanggo model PyTorch. Elinga yen iki beda saka wigati fitur sakabèhé, sing biasane didhukung, amarga ora ngandhani fitur sing penting kanggo kelas tartamtu. Kita ngukur pentinge obyek kanthi ngitung paningkatan kesalahan prediksi sawise nyusun ulang obyek kasebut. Fitur "penting" nalika ngganti nilai nambah kesalahan model amarga ing kasus iki model kasebut ngandelake fitur kasebut kanggo nggawe prediksi. A fitur "ora penting" nalika shuffling sawijining nilai ninggalake kesalahan model ora diganti, amarga ing kasus iki model digatèkaké [5].

Pentinge fitur kanggo saben kelas ngidini kita nggawe model bisa diinterpretasikake supaya kita bisa ndeleng apa model kasebut nalika prédhiksi label. Contone, nalika kita nganalisa ADDR, banjur kita njamin yen tandha digandhengake karo alamat, kayata AddressLineCount, rangking dhuwur ing tabel wigati fitur kanggo saben kelas supaya intuisi manungsa kita cocog uga karo apa model wis sinau.

evaluasi

Penting kanggo nemtokake metrik siji kanggo sukses. Kita milih F2 - imbangan antarane kelingan lan akurasi (kelingan bias rada gedhe). Kelingan luwih penting kanggo kasus panggunaan privasi tinimbang akurasi amarga penting kanggo tim supaya ora kantun data sensitif (nalika njamin akurasi sing cukup). Evaluasi kinerja F2 nyata model kita ngluwihi ruang lingkup makalah iki. Nanging, kanthi nyetel kanthi ati-ati, kita bisa entuk skor F0,9 sing dhuwur (2+) kanggo kelas sensitif sing paling penting.

Karya sing gegandhengan

Ana akeh algoritma kanggo klasifikasi otomatis dokumen sing ora terstruktur kanthi nggunakake macem-macem cara kayata pencocokan pola, telusuran mirip dokumen lan macem-macem metode pembelajaran mesin (Bayesian, wit keputusan, tetanggan paling cedhak lan liya-liyane) [6]. Sembarang iki bisa digunakake minangka bagéan saka klasifikasi. Nanging, masalah kasebut yaiku skalabilitas. Pendekatan klasifikasi ing artikel iki bias menyang keluwesan lan kinerja. Iki ngidini kita ndhukung kelas anyar ing mangsa ngarep lan njaga latensi sithik.

Ana uga akeh karya ing sidik jari data. Contone, penulis ing [7] nerangake solusi sing fokus ing masalah njupuk bocor data sensitif. Asumsi sing ndasari yaiku data kasebut bisa dicithak sidik jari kanggo cocog karo sakumpulan data sensitif sing dikenal. Penulis ing [8] njlèntrèhaké masalah sing padha babagan bocor privasi, nanging solusi kasebut adhedhasar arsitektur Android tartamtu lan mung diklasifikasikake yen tumindak pangguna nyebabake nuduhake informasi pribadhi utawa yen aplikasi dhasar bocor data pangguna. Kahanan ing kene rada beda amarga data pangguna uga bisa banget ora terstruktur. Mula, kita butuh teknik sing luwih rumit tinimbang sidik jari.

Pungkasan, kanggo ngatasi kekurangan data kanggo sawetara jinis data sensitif, kita ngenalake data sintetik. Ana akeh literatur babagan augmentasi data, contone, penulis ing [9] njelajah peran injeksi gangguan sajrone latihan lan mirsani asil positif ing pembelajaran sing diawasi. Pendekatan kita kanggo privasi beda amarga ngenalake data rame bisa dadi kontraproduktif, lan kita fokus ing data sintetik sing berkualitas tinggi.

kesimpulan

Ing makalah iki, kita nampilake sistem sing bisa nggolongake sepotong data. Iki ngidini kita nggawe sistem kanggo ngetrapake kabijakan privasi lan keamanan. Kita wis nuduhake manawa prasarana sing bisa diukur, integrasi terus-terusan, sinau mesin lan jaminan data berkualitas tinggi nduweni peran penting kanggo sukses akeh inisiatif privasi kita.

Ana akeh pituduh kanggo karya ing mangsa ngarep. Iki bisa uga kalebu nyediakake dhukungan kanggo data sing ora diskema (file), nggolongake ora mung jinis data nanging uga tingkat sensitivitas, lan nggunakake sinau sing diawasi dhewe sajrone latihan kanthi ngasilake conto sintetik sing akurat. Sing, bakal mbantu model nyuda kerugian kanthi jumlah paling gedhe. Pakaryan ing mangsa ngarep uga bisa fokus ing alur kerja investigasi, ing ngendi kita ngluwihi deteksi lan menehi analisis sabab saka macem-macem pelanggaran privasi. Iki bakal mbantu ing kasus kayata analisis sensitivitas (yaiku manawa sensitivitas privasi jinis data dhuwur (umpamane IP pangguna) utawa kurang (umpamane IP internal Facebook)).

Bibliografi

  1. David Ben-David, Tamar Domani lan Abigail Tarem. Klasifikasi data perusahaan nggunakake teknologi web semantik. Ing Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, lan Birte Glimm, editors, The Semantic Web - ISWC 2010, kaca 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, and Sanjeev Kumar. f4: sistem panyimpenan BLOB anget Facebook. Ing Simposium USENIX ke-11 babagan Desain lan Implementasi Sistem Operasi (OSDI 14), kaca 383-398, Broomfield, CO, Oktober 2014. Asosiasi USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Representasi sing disebarake saka tembung lan frasa lan komposisine. Ing C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, lan K. Q. Weinberger, editors, Kemajuan Sistem Pengolahan Informasi Syaraf 26, kaca 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe lan Christian Szegedy. Normalisasi kumpulan: Nyepetake latihan jaringan jero kanthi nyuda shift kovariat internal. Ing Francis Bach lan David Blei, editors, Prosiding Konferensi Internasional kaping 32 babagan Pembelajaran Mesin, volume 37 saka Prosiding Riset Machine Learning, kaca 448–456, Lille, Prancis, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. alas acak. Mach. sinau., 45(1):5–32, Oktober 2001.
  6. Thair Nu Phyu. Survey teknik klasifikasi ing data mining.
  7. X. Shu, D. Yao, lan E. Bertino. Deteksi privasi-ngreksa saka cahya data sensitif. Transaksi IEEE babagan Forensik Informasi lan Keamanan, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, lan Xiaoyang Wang. Appintent: Nganalisa transmisi data sensitif ing Android kanggo deteksi bocor privasi. kaca 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, lan Quoc V. Le. Tambah data sing ora diawasi.

Klasifikasi data sing bisa diukur kanggo keamanan lan privasi
Temokake rincian babagan carane entuk profesi sing digoleki saka awal utawa Level Up babagan katrampilan lan gaji kanthi njupuk kursus online SkillFactory:

Kursus liyane

Source: www.habr.com

Add a comment