Klasifikasi data boleh skala untuk keselamatan dan privasi

Klasifikasi data boleh skala untuk keselamatan dan privasi

Pengelasan data berasaskan kandungan adalah masalah terbuka. Sistem pencegahan kehilangan data (DLP) tradisional menyelesaikan masalah ini dengan mengecap jari data yang berkaitan dan memantau titik akhir untuk cap jari. Memandangkan bilangan besar sumber data yang sentiasa berubah-ubah di Facebook, pendekatan ini bukan sahaja tidak berskala, tetapi juga tidak berkesan untuk menentukan di mana data berada. Kertas kerja ini memfokuskan pada sistem hujung ke hujung yang dibina untuk mengesan jenis semantik sensitif dalam Facebook pada skala dan menguatkuasakan storan data dan kawalan akses secara automatik.

Pendekatan yang diterangkan di sini ialah sistem privasi hujung ke hujung pertama kami yang cuba menyelesaikan masalah ini dengan menggabungkan isyarat data, pembelajaran mesin dan teknik cap jari tradisional untuk memetakan dan mengklasifikasikan semua data di Facebook. Sistem yang diterangkan dikendalikan dalam persekitaran pengeluaran, mencapai purata skor F2 sebanyak 0,9+ merentas pelbagai kelas privasi sambil memproses sejumlah besar sumber data merentas berdozen repositori. Memperkenalkan terjemahan kertas ArXiv Facebook mengenai klasifikasi data berskala untuk keselamatan dan privasi berdasarkan pembelajaran mesin.

Pengenalan

Hari ini, organisasi mengumpul dan menyimpan sejumlah besar data dalam pelbagai format dan lokasi [1], kemudian data itu digunakan di banyak tempat, kadangkala disalin atau dicache beberapa kali, mengakibatkan maklumat perniagaan yang berharga dan sensitif tersebar di banyak data perusahaan. kedai-kedai. Apabila organisasi dikehendaki memenuhi keperluan undang-undang atau peraturan tertentu, seperti pematuhan peraturan dalam prosiding sivil, adalah perlu untuk mengumpul data tentang lokasi data yang diperlukan. Apabila peraturan privasi menyatakan bahawa organisasi mesti menutup semua Nombor Keselamatan Sosial (SSN) apabila berkongsi maklumat peribadi dengan entiti yang tidak dibenarkan, langkah pertama yang semula jadi ialah mencari semua SSN merentasi stor data organisasi. Dalam keadaan sedemikian, klasifikasi data menjadi kritikal [1]. Sistem klasifikasi akan membolehkan organisasi menguatkuasakan dasar privasi dan keselamatan secara automatik, seperti mendayakan dasar kawalan akses, pengekalan data. Facebook memperkenalkan sistem yang kami bina di Facebook yang menggunakan berbilang isyarat data, seni bina sistem berskala dan pembelajaran mesin untuk menemui jenis data semantik yang sensitif.

Penemuan dan pengelasan data ialah proses mencari dan melabelkan data supaya maklumat yang berkaitan dapat diperoleh dengan cepat dan cekap apabila diperlukan. Proses semasa agak manual dan terdiri daripada memeriksa undang-undang atau peraturan yang berkaitan, menentukan jenis maklumat yang harus dianggap sensitif dan tahap sensitiviti yang berbeza, dan kemudian membina kelas dan dasar pengelasan dengan sewajarnya [1]. Pencegahan kehilangan data (DLP) kemudian cap jari data dan memantau titik akhir hiliran untuk mendapatkan cap jari. Apabila berurusan dengan gudang berat aset dengan petabait data, pendekatan ini tidak berskala.

Matlamat kami adalah untuk membina sistem klasifikasi data yang berskala kepada kedua-dua data pengguna yang mantap dan sementara, tanpa sebarang sekatan tambahan pada jenis atau format data. Ini adalah matlamat yang berani, dan secara semula jadi ia datang dengan cabaran. Rekod data yang diberikan boleh mempunyai beribu-ribu aksara.

Klasifikasi data boleh skala untuk keselamatan dan privasi
Rajah 1. Aliran ramalan dalam talian dan luar talian

Oleh itu, kita mesti mewakilinya dengan cekap menggunakan set ciri biasa yang kemudiannya boleh digabungkan dan mudah dialihkan. Ciri-ciri ini bukan sahaja harus menyediakan klasifikasi yang tepat, tetapi juga memberikan kefleksibelan dan kebolehlanjutan untuk menambah dan menemui jenis data baharu dengan mudah pada masa hadapan. Kedua, anda perlu berurusan dengan jadual luar talian yang besar. Data tahan lama boleh disimpan dalam jadual yang bersaiz petabait. Ini boleh menyebabkan kelajuan imbasan lebih perlahan. Ketiga, kita mesti mematuhi klasifikasi SLA yang ketat pada data yang tidak menentu. Ini memaksa sistem menjadi sangat cekap, pantas dan tepat. Akhir sekali, kami mesti menyediakan klasifikasi data kependaman rendah untuk data yang tidak menentu untuk melaksanakan pengelasan masa nyata serta untuk kes penggunaan Internet.

Kertas kerja ini menerangkan cara kami menangani cabaran di atas dan mempersembahkan sistem pengelasan yang pantas dan berskala yang mengelaskan elemen data bagi semua jenis, format dan sumber berdasarkan set ciri biasa. Kami mengembangkan seni bina sistem dan mencipta model pembelajaran mesin tersuai untuk mengklasifikasikan data luar talian dan dalam talian dengan cepat. Kertas kerja ini disusun seperti berikut: Bahagian 2 membentangkan reka bentuk keseluruhan sistem. Bahagian 3 membincangkan bahagian-bahagian sistem pembelajaran mesin. Bahagian 4 dan 5 menyerlahkan kerja berkaitan dan menggariskan hala tuju kerja masa hadapan.

seni bina

Untuk menangani cabaran data dalam talian yang berterusan dan berskala Facebook, sistem klasifikasi mempunyai dua aliran berasingan, yang akan kami bincangkan secara terperinci.

Data Mampan

Pada mulanya, sistem mesti mempelajari tentang banyak aset maklumat Facebook. Untuk setiap repositori, beberapa maklumat asas dikumpul, seperti pusat data yang mengandungi data tersebut, sistem yang mengandungi data tersebut dan aset yang terletak dalam repositori data tertentu. Ini mencipta katalog metadata yang membolehkan sistem mendapatkan semula data dengan cekap tanpa membebankan pelanggan dan sumber yang digunakan oleh jurutera lain.

Katalog metadata ini menyediakan sumber berwibawa untuk semua aset yang diimbas dan membolehkan anda menjejak status pelbagai aset. Dengan menggunakan maklumat ini, keutamaan penjadualan ditetapkan berdasarkan data yang dikumpul dan maklumat dalaman daripada sistem, seperti masa terakhir aset berjaya diimbas dan masa ia dicipta, serta memori masa lalu dan keperluan CPU untuk aset tersebut jika ia telah diimbas sebelum ini. Kemudian, untuk setiap sumber data (apabila sumber tersedia), tugas dipanggil untuk mengimbas sumber itu sebenarnya.

Setiap kerja ialah fail binari terkumpul yang melaksanakan pensampelan Bernoulli pada data terkini yang tersedia untuk setiap aset. Aset dibahagikan kepada lajur individu, di mana hasil klasifikasi setiap lajur diproses secara berasingan. Selain itu, sistem mengimbas sebarang data tepu dalam lajur. JSON, tatasusunan, struktur yang dikodkan, URL, data bersiri asas 64 dan banyak lagi semuanya diimbas. Ini boleh meningkatkan masa pelaksanaan imbasan dengan ketara kerana satu jadual boleh mengandungi beribu-ribu lajur bersarang dalam gumpalan json.

Untuk setiap baris yang dipilih dalam aset data, sistem klasifikasi mengekstrak objek apungan dan teks daripada kandungan dan mengaitkan setiap objek kembali ke lajur tempat ia diambil. Output langkah pengekstrakan ciri ialah peta semua ciri untuk setiap lajur yang terdapat dalam aset data.

Apakah tanda-tandanya?

Konsep atribut adalah kunci. Daripada ciri apungan dan teks, kami boleh menghantar sampel rentetan mentah yang diekstrak terus daripada setiap sumber data. Selain itu, model pembelajaran mesin boleh dilatih secara langsung pada setiap sampel, dan bukannya ratusan pengiraan ciri yang hanya cuba menganggarkan sampel. Terdapat beberapa sebab untuk ini:

  1. Privasi dahulu: Paling penting, konsep ciri membolehkan kami menyimpan dalam ingatan hanya corak yang kami dapatkan semula. Ini memastikan bahawa kami menyimpan sampel untuk satu tujuan dan tidak pernah mencatatkannya melalui usaha kami sendiri. Ini amat penting untuk data yang tidak menentu, kerana perkhidmatan mesti mengekalkan beberapa keadaan pengelasan sebelum memberikan ramalan.
  2. Memori: Sesetengah sampel boleh mempunyai beribu-ribu aksara. Menyimpan data sedemikian dan menghantarnya ke bahagian sistem tidak semestinya menggunakan banyak bait tambahan. Kedua-dua faktor ini boleh digabungkan dari semasa ke semasa, memandangkan terdapat banyak sumber data dengan beribu-ribu lajur.
  3. Pengagregatan ciri: Ciri dengan jelas mewakili hasil setiap imbasan melalui satu set ciri, membolehkan sistem menggabungkan hasil imbasan sebelumnya bagi sumber data yang sama dengan cara yang mudah. Ini boleh berguna untuk mengagregatkan hasil imbasan daripada sumber data tunggal merentas berbilang larian.

Ciri tersebut kemudiannya dihantar ke perkhidmatan ramalan di mana kami menggunakan klasifikasi berasaskan peraturan dan pembelajaran mesin untuk meramalkan label data setiap lajur. Perkhidmatan ini bergantung pada pengelas peraturan dan pembelajaran mesin serta memilih ramalan terbaik yang diberikan daripada setiap objek ramalan.

Pengelas peraturan ialah heuristik manual, mereka menggunakan pengiraan dan pekali untuk menormalkan objek kepada julat 0 hingga 100. Sebaik sahaja skor awal sedemikian dijana untuk setiap jenis data dan nama lajur yang dikaitkan dengan data itu, ia tidak termasuk dalam sebarang "larangan". lists", Pengelas peraturan memilih skor ternormal tertinggi antara ,semua jenis data.

Disebabkan oleh kerumitan pengelasan, bergantung semata-mata pada heuristik manual menghasilkan ketepatan pengelasan yang rendah, terutamanya untuk data tidak berstruktur. Atas sebab ini, kami membangunkan sistem pembelajaran mesin untuk berfungsi dengan klasifikasi data tidak berstruktur seperti kandungan dan alamat pengguna. Pembelajaran mesin telah membolehkan anda mula beralih daripada heuristik manual dan menggunakan isyarat data tambahan (cth. nama lajur, asal data), meningkatkan ketepatan pengesanan dengan ketara. Kami akan mendalami seni bina pembelajaran mesin kami nanti.

Perkhidmatan ramalan menyimpan keputusan untuk setiap lajur bersama-sama dengan metadata mengenai masa dan keadaan imbasan. Mana-mana pengguna dan proses hiliran yang bergantung pada data ini boleh membacanya daripada set data yang diterbitkan setiap hari. Set ini mengagregatkan hasil semua kerja imbasan ini, atau API Katalog Data Masa Nyata. Ramalan yang diterbitkan adalah asas untuk penguatkuasaan automatik dasar privasi dan keselamatan.

Akhir sekali, selepas perkhidmatan ramalan menulis semua data dan semua ramalan disimpan, API Katalog Data kami boleh mengembalikan semua ramalan jenis data untuk sumber dalam masa nyata. Setiap hari sistem menerbitkan set data yang mengandungi semua ramalan terkini untuk setiap aset.

Data tidak menentu

Walaupun proses di atas direka bentuk untuk aset berterusan, trafik tidak berterusan juga dianggap sebagai sebahagian daripada data organisasi dan boleh menjadi penting. Atas sebab ini, sistem menyediakan API dalam talian untuk menjana ramalan klasifikasi masa nyata untuk sebarang trafik terputus-putus. Sistem ramalan masa nyata digunakan secara meluas dalam mengklasifikasikan trafik keluar, trafik masuk ke dalam model pembelajaran mesin dan data pengiklan.

Di sini API mengambil dua hujah utama: kunci kumpulan dan data mentah yang akan diramalkan. Perkhidmatan melakukan pengambilan objek yang sama seperti yang diterangkan di atas dan mengumpulkan objek bersama untuk kunci yang sama. Ciri ini juga disokong dalam cache kegigihan untuk pemulihan kegagalan. Untuk setiap kunci kumpulan, perkhidmatan memastikan bahawa ia telah melihat sampel yang mencukupi sebelum memanggil perkhidmatan ramalan, mengikut proses yang diterangkan di atas.

Pengoptimuman

Untuk mengimbas beberapa storan, kami menggunakan perpustakaan dan teknik untuk mengoptimumkan bacaan daripada storan panas [2] dan memastikan tiada gangguan daripada pengguna lain yang mengakses storan yang sama.

Untuk jadual yang sangat besar (50+ petabait), walaupun semua pengoptimuman dan kecekapan memori, sistem berfungsi untuk mengimbas dan mengira semuanya sebelum kehabisan memori. Lagipun, imbasan dikira sepenuhnya dalam ingatan dan tidak disimpan semasa imbasan. Jika jadual besar mengandungi beribu-ribu lajur dengan rumpun data yang tidak berstruktur, kerja mungkin gagal disebabkan oleh sumber ingatan yang tidak mencukupi semasa melakukan ramalan pada keseluruhan jadual. Ini akan mengakibatkan liputan berkurangan. Untuk memerangi ini, kami mengoptimumkan sistem untuk menggunakan kelajuan imbasan sebagai proksi untuk seberapa baik sistem mengendalikan beban kerja semasa. Kami menggunakan kelajuan sebagai mekanisme ramalan untuk melihat masalah ingatan dan mengira peta ciri secara ramalan. Pada masa yang sama, kami menggunakan kurang data daripada biasa.

Isyarat data

Sistem klasifikasi hanya sebaik isyarat daripada data. Di sini kita akan melihat semua isyarat yang digunakan oleh sistem pengelasan.

  • Berdasarkan Kandungan: Sudah tentu, isyarat pertama dan paling penting ialah kandungan. Pensampelan Bernoulli dilakukan pada setiap aset data yang kami imbas dan ekstrak ciri berdasarkan kandungan data. Banyak tanda datang dari kandungan. Sebarang bilangan objek terapung adalah mungkin, yang mewakili pengiraan berapa kali jenis sampel tertentu telah dilihat. Sebagai contoh, kami mungkin mempunyai tanda bilangan e-mel yang dilihat dalam sampel, atau tanda bilangan emoji yang dilihat dalam sampel. Pengiraan ciri ini boleh dinormalkan dan diagregatkan merentas imbasan yang berbeza.
  • Asal data: Isyarat penting yang boleh membantu apabila kandungan telah berubah daripada jadual induk. Contoh biasa ialah data cincang. Apabila data dalam jadual anak dicincang, ia selalunya datang daripada jadual induk, di mana ia kekal dalam keadaan jelas. Data keturunan membantu mengklasifikasikan jenis data tertentu apabila ia tidak dibaca dengan jelas atau ditukar daripada jadual huluan.
  • Anotasi: Satu lagi isyarat berkualiti tinggi yang membantu dalam mengenal pasti data tidak berstruktur. Malah, anotasi dan data asal boleh bekerjasama untuk menyebarkan atribut merentas aset data yang berbeza. Anotasi membantu mengenal pasti sumber data tidak berstruktur, manakala data keturunan boleh membantu menjejaki aliran data tersebut di seluruh repositori.
  • Suntikan data ialah teknik di mana aksara khas yang tidak boleh dibaca sengaja dimasukkan ke dalam sumber yang diketahui bagi jenis data yang diketahui. Kemudian, apabila kami mengimbas kandungan dengan urutan aksara tidak boleh dibaca yang sama, kami boleh membuat kesimpulan bahawa kandungan itu berasal daripada jenis data yang diketahui itu. Ini adalah satu lagi isyarat data kualitatif yang serupa dengan anotasi. Kecuali pengesanan berasaskan kandungan membantu menemui data yang dimasukkan.

Metrik Pengukuran

Komponen penting ialah metodologi yang ketat untuk mengukur metrik. Metrik utama untuk lelaran penambahbaikan klasifikasi ialah ketepatan dan ingatan semula setiap label, dengan skor F2 adalah yang paling penting.

Untuk mengira metrik ini, metodologi bebas untuk melabelkan aset data diperlukan yang bebas daripada sistem itu sendiri, tetapi boleh digunakan untuk perbandingan langsung dengannya. Di bawah ini kami menerangkan cara kami mengumpul kebenaran asas daripada Facebook dan menggunakannya untuk melatih sistem pengelasan kami.

Pengumpulan data yang boleh dipercayai

Kami mengumpul data yang boleh dipercayai daripada setiap sumber yang disenaraikan di bawah ke dalam jadualnya sendiri. Setiap jadual bertanggungjawab untuk mengagregatkan nilai yang diperhatikan terkini daripada sumber tertentu itu. Setiap sumber mempunyai semakan kualiti data untuk memastikan bahawa nilai yang diperhatikan bagi setiap sumber adalah berkualiti tinggi dan mengandungi label jenis data terkini.

  • Konfigurasi platform pengelogan: Medan tertentu dalam jadual sarang diisi dengan data daripada jenis tertentu. Penggunaan dan penyebaran data ini berfungsi sebagai sumber kebenaran yang boleh dipercayai.
  • Pelabelan manual: Pembangun yang menyelenggara sistem serta pelabel luaran dilatih untuk melabel lajur. Ini biasanya berfungsi dengan baik untuk semua jenis data dalam gudang, dan boleh menjadi sumber kebenaran utama untuk beberapa data tidak berstruktur, seperti data mesej atau kandungan pengguna.
  • Lajur daripada jadual induk boleh ditanda atau diberi anotasi sebagai mengandungi data tertentu dan kami boleh menjejaki data tersebut dalam jadual kanak-kanak.
  • Mengambil urutan pelaksanaan: urutan pelaksanaan dalam Facebook membawa jenis data tertentu. Menggunakan pengimbas kami sebagai seni bina perkhidmatan, kami boleh mencuba strim yang mempunyai jenis data yang diketahui dan menghantarnya melalui sistem. Sistem berjanji untuk tidak menyimpan data ini.
  • Jadual sampel: Jadual sarang besar, yang diketahui mengandungi keseluruhan korpus data, juga boleh digunakan sebagai data latihan dan melalui pengimbas sebagai perkhidmatan. Ini bagus untuk jadual dengan julat penuh jenis data, supaya pensampelan lajur secara rawak adalah bersamaan dengan pensampelan keseluruhan set jenis data tersebut.
  • Data sintetik: Kita juga boleh menggunakan perpustakaan yang menjana data dengan cepat. Ini berfungsi dengan baik untuk jenis data awam yang ringkas seperti alamat atau GPS.
  • Penjaga Data: Program privasi biasanya menggunakan pelayan data untuk menetapkan dasar secara manual kepada kepingan data. Ini berfungsi sebagai sumber kebenaran yang sangat tepat.

Kami menggabungkan setiap sumber utama kebenaran menjadi satu korpus dengan semua data itu. Cabaran terbesar dengan kesahihan ialah memastikan ia mewakili repositori data. Jika tidak, enjin pengelasan mungkin mengalami overtrain. Untuk memerangi ini, semua sumber di atas digunakan untuk memastikan keseimbangan semasa melatih model atau mengira metrik. Selain itu, pelabel manusia secara seragam mengambil sampel lajur yang berbeza dalam repositori dan melabelkan data dengan sewajarnya supaya pengumpulan kebenaran asas kekal tidak berat sebelah.

Integrasi berterusan

Untuk memastikan lelaran dan peningkatan pantas, adalah penting untuk sentiasa mengukur prestasi sistem dalam masa nyata. Kami boleh mengukur setiap peningkatan klasifikasi berbanding sistem hari ini, jadi kami boleh membimbing secara taktikal penambahbaikan masa hadapan berdasarkan data. Di sini kita melihat bagaimana sistem melengkapkan gelung maklum balas yang disediakan oleh data yang sah.

Apabila sistem penjadualan menemui aset yang mempunyai label daripada sumber yang dipercayai, kami menjadualkan dua tugasan. Yang pertama menggunakan pengimbas pengeluaran kami dan dengan itu keupayaan pengeluaran kami. Tugasan kedua menggunakan pengimbas binaan terkini dengan ciri terkini. Setiap tugasan menulis outputnya ke jadualnya sendiri, menandai versi bersama-sama dengan hasil pengelasan.

Beginilah cara kami membandingkan keputusan klasifikasi calon keluaran dan model pengeluaran dalam masa nyata.

Walaupun set data membandingkan ciri RC dan PROD, banyak variasi enjin klasifikasi ML perkhidmatan ramalan direkodkan. Model pembelajaran mesin yang paling baru dibina, model semasa dalam pengeluaran dan sebarang model eksperimen. Pendekatan yang sama membolehkan kami "menghiris" versi model yang berbeza (agnostik kepada pengelas peraturan kami) dan membandingkan metrik dalam masa nyata. Ini memudahkan untuk menentukan masa percubaan ML sedia untuk dikeluarkan.

Setiap malam, ciri RC yang dikira untuk hari itu dihantar ke saluran paip latihan ML, di mana model dilatih tentang ciri RC terkini dan menilai prestasinya terhadap set data kebenaran tanah.

Setiap pagi, model itu melengkapkan latihan dan diterbitkan secara automatik sebagai model eksperimen. Ia disertakan secara automatik dalam senarai percubaan.

Beberapa keputusan

Lebih 100 jenis data berbeza dilabelkan dengan ketepatan yang tinggi. Jenis yang tersusun dengan baik seperti e-mel dan nombor telefon diklasifikasikan dengan skor f2 lebih besar daripada 0,95. Jenis data percuma seperti kandungan dan nama yang dijana pengguna juga berprestasi sangat baik, dengan skor F2 lebih besar daripada 0,85.

Sebilangan besar lajur individu data berterusan dan tidak menentu diklasifikasikan setiap hari merentas semua repositori. Lebih daripada 500 terabait diimbas setiap hari merentasi lebih daripada 10 gudang data. Kebanyakan repositori ini mempunyai lebih 98% liputan.

Dari masa ke masa, klasifikasi telah menjadi sangat cekap, dengan kerja pengelasan dalam strim luar talian berterusan mengambil masa purata 35 saat daripada mengimbas aset kepada mengira ramalan untuk setiap lajur.

Klasifikasi data boleh skala untuk keselamatan dan privasi
nasi. 2. Rajah menerangkan aliran penyepaduan berterusan untuk memahami bagaimana objek RC dijana dan dihantar kepada model.

Klasifikasi data boleh skala untuk keselamatan dan privasi
Rajah 3. Gambar rajah aras tinggi bagi komponen pembelajaran mesin.

Komponen sistem pembelajaran mesin

Dalam bahagian sebelumnya, kami menyelami secara mendalam seni bina sistem keseluruhan, menyerlahkan skala, pengoptimuman dan aliran data luar talian dan dalam talian. Dalam bahagian ini, kita akan melihat perkhidmatan peramalan dan menerangkan sistem pembelajaran mesin yang menggerakkan perkhidmatan peramalan.

Dengan lebih 100 jenis data dan beberapa kandungan tidak berstruktur seperti data mesej dan kandungan pengguna, menggunakan heuristik manual semata-mata menghasilkan ketepatan pengelasan subparametrik, terutamanya untuk data tidak berstruktur. Atas sebab ini, kami juga telah membangunkan sistem pembelajaran mesin untuk menangani kerumitan data tidak berstruktur. Menggunakan pembelajaran mesin membolehkan anda mula beralih daripada heuristik manual dan bekerja dengan ciri dan isyarat data tambahan (contohnya, nama lajur, asal data) untuk meningkatkan ketepatan.

Model yang dilaksanakan mengkaji perwakilan vektor [3] ke atas objek padat dan jarang secara berasingan. Ini kemudiannya digabungkan untuk membentuk vektor, yang melalui satu siri penormalan kelompok [4] dan langkah-langkah tidak linear untuk menghasilkan keputusan akhir. Hasil akhir ialah nombor titik terapung antara [0-1] untuk setiap label, menunjukkan kebarangkalian bahawa contoh itu tergolong dalam jenis kepekaan tersebut. Menggunakan PyTorch untuk model membolehkan kami bergerak lebih pantas, membenarkan pembangun di luar pasukan membuat dan menguji perubahan dengan pantas.

Apabila mereka bentuk seni bina, adalah penting untuk memodelkan objek jarang (cth teks) dan padat (cth angka) secara berasingan kerana perbezaan yang wujud. Untuk seni bina akhir, ia juga penting untuk melakukan sapuan parameter untuk mencari nilai optimum untuk kadar pembelajaran, saiz kelompok dan hiperparameter lain. Pilihan pengoptimum juga merupakan hiperparameter penting. Kami mendapati bahawa pengoptimum yang popular Adamselalunya membawa kepada overfitting, sedangkan model dengan SGD lebih stabil. Terdapat nuansa tambahan yang perlu kami sertakan secara langsung dalam model. Contohnya, peraturan statik yang memastikan model membuat ramalan deterministik apabila ciri mempunyai nilai tertentu. Peraturan statik ini ditakrifkan oleh pelanggan kami. Kami mendapati bahawa memasukkannya terus ke dalam model menghasilkan seni bina yang lebih serba lengkap dan mantap, berbanding dengan melaksanakan langkah pasca pemprosesan untuk mengendalikan kes kelebihan khas ini. Juga ambil perhatian bahawa peraturan ini dilumpuhkan semasa latihan supaya tidak mengganggu proses latihan penurunan kecerunan.

Masalah

Salah satu cabaran ialah mengumpul data yang berkualiti tinggi dan boleh dipercayai. Model ini memerlukan keyakinan untuk setiap kelas supaya ia boleh mempelajari perkaitan antara objek dan label. Dalam bahagian sebelumnya, kami membincangkan kaedah pengumpulan data untuk pengukuran sistem dan latihan model. Analisis menunjukkan bahawa kelas data seperti kad kredit dan nombor akaun bank tidak begitu biasa di gudang kami. Ini menyukarkan untuk mengumpul sejumlah besar data yang boleh dipercayai untuk melatih model. Untuk menangani isu ini, kami telah membangunkan proses untuk mendapatkan data kebenaran asas sintetik untuk kelas ini. Kami menjana data sedemikian untuk jenis sensitif termasuk SSN, nombor kad kredit ΠΈ IBAN-nombor yang model tidak dapat meramalkan sebelum ini. Pendekatan ini membolehkan jenis data sensitif diproses tanpa risiko privasi yang berkaitan dengan menyembunyikan data sensitif sebenar.

Selain isu kebenaran asas, terdapat isu seni bina terbuka yang sedang kami usahakan, seperti tukar pengasingan ΠΈ singgah awal. Perubahan pengasingan adalah penting untuk memastikan bahawa apabila perubahan berbeza dibuat pada bahagian rangkaian yang berlainan, impaknya diasingkan kepada kelas tertentu dan tidak mempunyai kesan yang luas terhadap prestasi ramalan keseluruhan. Penambahbaikan kriteria berhenti awal juga penting supaya kita boleh menghentikan proses latihan pada titik yang stabil untuk semua kelas, bukannya pada titik di mana sesetengah kelas melakukan latihan berlebihan dan yang lain tidak.

Kepentingan ciri

Apabila ciri baharu diperkenalkan ke dalam model, kami ingin mengetahui kesan keseluruhannya terhadap model tersebut. Kami juga ingin memastikan bahawa ramalan itu boleh ditafsirkan oleh manusia supaya kami dapat memahami dengan tepat ciri yang digunakan untuk setiap jenis data. Untuk tujuan ini kami telah membangunkan dan memperkenalkan mengikut kelas kepentingan ciri untuk model PyTorch. Ambil perhatian bahawa ini berbeza daripada kepentingan ciri keseluruhan, yang biasanya disokong, kerana ia tidak memberitahu kami ciri yang penting untuk kelas tertentu. Kami mengukur kepentingan objek dengan mengira peningkatan ralat ramalan selepas menyusun semula objek. Ciri adalah "penting" apabila menukar nilai meningkatkan ralat model kerana dalam kes ini model bergantung pada ciri untuk membuat ramalannya. Ciri adalah "tidak penting" apabila merombak nilainya meninggalkan ralat model tidak berubah, kerana dalam kes ini model mengabaikannya [5].

Kepentingan ciri untuk setiap kelas membolehkan kami menjadikan model boleh ditafsirkan supaya kami dapat melihat perkara yang dilihat model semasa meramalkan label. Sebagai contoh, apabila kita menganalisis ALAMAT, maka kami menjamin bahawa tanda yang dikaitkan dengan alamat, seperti AddressLinesCount, berada pada kedudukan tinggi dalam jadual kepentingan ciri untuk setiap kelas supaya gerak hati manusia kita sepadan dengan baik dengan apa yang telah dipelajari oleh model.

Penilaian

Adalah penting untuk menentukan satu metrik untuk kejayaan. Kami memilih F2 - keseimbangan antara ingat dan ketepatan (bias ingat lebih besar sedikit). Ingat adalah lebih penting untuk kes penggunaan privasi daripada ketepatan kerana adalah penting bagi pasukan untuk tidak terlepas sebarang data sensitif (sambil memastikan ketepatan yang munasabah). Penilaian prestasi F2 sebenar model kami adalah di luar skop kertas ini. Walau bagaimanapun, dengan penalaan berhati-hati kita boleh mencapai skor F0,9 yang tinggi (2+) untuk kelas sensitif yang paling penting.

Kerja-kerja yang berkaitan

Terdapat banyak algoritma untuk pengelasan automatik dokumen tidak berstruktur menggunakan pelbagai kaedah seperti padanan corak, carian persamaan dokumen dan pelbagai kaedah pembelajaran mesin (Bayesian, pepohon keputusan, jiran terdekat k dan lain-lain lagi) [6]. Mana-mana daripada ini boleh digunakan sebagai sebahagian daripada klasifikasi. Walau bagaimanapun, masalahnya ialah kebolehskalaan. Pendekatan klasifikasi dalam artikel ini adalah berat sebelah ke arah fleksibiliti dan prestasi. Ini membolehkan kami menyokong kelas baharu pada masa hadapan dan mengekalkan kependaman rendah.

Terdapat juga banyak kerja pada cap jari data. Sebagai contoh, pengarang dalam [7] menerangkan penyelesaian yang memfokuskan kepada masalah menangkap kebocoran data sensitif. Andaian asas ialah data boleh dicap jari untuk memadankannya dengan set data sensitif yang diketahui. Pengarang dalam [8] menerangkan masalah kebocoran privasi yang sama, tetapi penyelesaian mereka adalah berdasarkan seni bina Android tertentu dan hanya diklasifikasikan jika tindakan pengguna mengakibatkan perkongsian maklumat peribadi atau jika aplikasi asas membocorkan data pengguna. Keadaan di sini agak berbeza kerana data pengguna juga boleh menjadi sangat tidak berstruktur. Oleh itu, kita memerlukan teknik yang lebih kompleks daripada cap jari.

Akhir sekali, untuk mengatasi kekurangan data untuk beberapa jenis data sensitif, kami memperkenalkan data sintetik. Terdapat banyak literatur tentang penambahan data, sebagai contoh, pengarang dalam [9] meneroka peranan suntikan bunyi semasa latihan dan memerhatikan hasil positif dalam pembelajaran yang diselia. Pendekatan kami terhadap privasi adalah berbeza kerana memperkenalkan data bising boleh menjadi tidak produktif, dan sebaliknya kami menumpukan pada data sintetik berkualiti tinggi.

Kesimpulan

Dalam kertas kerja ini, kami membentangkan sistem yang boleh mengklasifikasikan sekeping data. Ini membolehkan kami mencipta sistem untuk menguatkuasakan dasar privasi dan keselamatan. Kami telah menunjukkan bahawa infrastruktur berskala, penyepaduan berterusan, pembelajaran mesin dan jaminan data berkualiti tinggi memainkan peranan penting dalam kejayaan banyak inisiatif privasi kami.

Terdapat banyak arahan untuk kerja masa depan. Ini mungkin termasuk menyediakan sokongan untuk data tidak skematik (fail), mengklasifikasikan bukan sahaja jenis data tetapi juga tahap kepekaan, dan menggunakan pembelajaran diselia sendiri semasa latihan dengan menjana contoh sintetik yang tepat. Yang, seterusnya, akan membantu model mengurangkan kerugian dengan jumlah terbesar. Kerja masa hadapan juga boleh menumpukan pada aliran kerja penyiasatan, di mana kami melampaui pengesanan dan menyediakan analisis punca pelbagai pelanggaran privasi. Ini akan membantu dalam kes seperti analisis sensitiviti (iaitu sama ada sensitiviti privasi jenis data adalah tinggi (cth. IP pengguna) atau rendah (cth. IP dalaman Facebook)).

Bibliografi

  1. David Ben-David, Tamar Domany, dan Abigail Tarem. Pengelasan data perusahaan menggunakan teknologi web semantik. Dalam Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks dan Birte Glimm, editor, Web Semantik – ISWC 2010, halaman 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang dan Sanjeev Kumar. f4: Sistem storan BLOB hangat Facebook. Dalam Simposium USENIX ke-11 mengenai Reka Bentuk dan Pelaksanaan Sistem Operasi (OSDI 14), muka surat 383–398, Broomfield, CO, Oktober 2014. Persatuan USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, dan Jeff Dean. Perwakilan yang diedarkan bagi perkataan dan frasa serta komposisinya. Dalam C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, dan K. Q. Weinberger, editor, Kemajuan dalam Sistem Pemprosesan Maklumat Neural 26, muka surat 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe dan Christian Szegedy. Normalisasi kelompok: Mempercepatkan latihan rangkaian dalam dengan mengurangkan peralihan kovariat dalaman. Dalam Francis Bach dan David Blei, editor, Prosiding Persidangan Antarabangsa ke-32 mengenai Pembelajaran Mesin, jilid 37 daripada Prosiding Penyelidikan Pembelajaran Mesin, muka surat 448–456, Lille, Perancis, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Hutan rawak. Mach. Belajar., 45(1):5–32, Oktober 2001.
  6. Thair Nu Phyu. Tinjauan teknik klasifikasi dalam perlombongan data.
  7. X. Shu, D. Yao, dan E. Bertino. Pengesanan pendedahan data sensitif yang memelihara privasi. Transaksi IEEE mengenai Forensik dan Keselamatan Maklumat, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, dan Xiaoyang Wang. Pelantik: Menganalisis penghantaran data sensitif dalam android untuk pengesanan kebocoran privasi. muka surat 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong dan Quoc V. Le. Penambahan data tanpa pengawasan.

Klasifikasi data boleh skala untuk keselamatan dan privasi
Ketahui butiran tentang cara mendapatkan profesion yang dicari dari awal atau Naik Tahap dari segi kemahiran dan gaji dengan mengikuti kursus dalam talian SkillFactory:

Lebih banyak kursus

Sumber: www.habr.com

Tambah komen