การจัดหมวดหมู่ข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัว

การจัดหมวดหมู่ข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัว

การจำแนกข้อมูลตามเนื้อหาเป็นปัญหาเปิด ระบบป้องกันข้อมูลสูญหาย (DLP) แบบเดิมช่วยแก้ปัญหานี้ด้วยการพิมพ์ลายนิ้วมือข้อมูลที่เกี่ยวข้องและตรวจสอบจุดสิ้นสุดสำหรับการพิมพ์ลายนิ้วมือ เมื่อพิจารณาจากแหล่งข้อมูลที่เปลี่ยนแปลงตลอดเวลาบน Facebook จำนวนมาก วิธีการนี้ไม่เพียงแต่ไม่สามารถปรับขนาดได้ แต่ยังไร้ประสิทธิผลในการระบุตำแหน่งของข้อมูลอีกด้วย บทความนี้มุ่งเน้นไปที่ระบบแบบครบวงจรที่สร้างขึ้นเพื่อตรวจจับประเภทความหมายที่ละเอียดอ่อนใน Facebook ในวงกว้าง และบังคับใช้การจัดเก็บข้อมูลและการควบคุมการเข้าถึงโดยอัตโนมัติ

แนวทางที่อธิบายไว้ที่นี่เป็นระบบความเป็นส่วนตัวแบบ end-to-end ระบบแรกของเราที่พยายามแก้ไขปัญหานี้โดยผสมผสานสัญญาณข้อมูล การเรียนรู้ของเครื่อง และเทคนิคการพิมพ์ลายนิ้วมือแบบดั้งเดิม เพื่อสร้างแผนที่และจำแนกข้อมูลทั้งหมดบน Facebook ระบบที่อธิบายไว้ทำงานในสภาพแวดล้อมการใช้งานจริง โดยได้คะแนน F2 เฉลี่ย 0,9+ สำหรับคลาสความเป็นส่วนตัวต่างๆ ขณะเดียวกันก็ประมวลผลทรัพยากรข้อมูลจำนวนมากในที่เก็บข้อมูลหลายสิบแห่ง ขอแนะนำการแปลเอกสาร ArXiv ของ Facebook เกี่ยวกับการจำแนกข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัวโดยอิงจากการเรียนรู้ของเครื่อง

การแนะนำ

ปัจจุบัน องค์กรต่างๆ รวบรวมและจัดเก็บข้อมูลจำนวนมากในรูปแบบและตำแหน่งที่หลากหลาย [1] จากนั้นข้อมูลจะถูกใช้ไปในหลายๆ แห่ง ซึ่งบางครั้งก็คัดลอกหรือแคชหลายครั้ง ส่งผลให้ข้อมูลทางธุรกิจที่มีคุณค่าและละเอียดอ่อนกระจัดกระจายไปทั่วข้อมูลองค์กรจำนวนมาก ร้านค้า เมื่อองค์กรจำเป็นต้องปฏิบัติตามข้อกำหนดทางกฎหมายหรือข้อบังคับบางประการ เช่น การปฏิบัติตามกฎระเบียบในการดำเนินคดีทางแพ่ง จำเป็นต้องรวบรวมข้อมูลเกี่ยวกับตำแหน่งของข้อมูลที่ต้องการ เมื่อกฎระเบียบความเป็นส่วนตัวระบุว่าองค์กรต้องปกปิดหมายเลขประกันสังคม (SSN) ทั้งหมดเมื่อแบ่งปันข้อมูลส่วนบุคคลกับหน่วยงานที่ไม่ได้รับอนุญาต ขั้นตอนแรกตามธรรมชาติคือการค้นหา SSN ทั้งหมดทั่วทั้งที่จัดเก็บข้อมูลขององค์กร ภายใต้สถานการณ์เช่นนี้ การจำแนกประเภทข้อมูลจึงมีความสำคัญ [1] ระบบการจัดหมวดหมู่จะช่วยให้องค์กรสามารถบังคับใช้นโยบายความเป็นส่วนตัวและความปลอดภัยได้โดยอัตโนมัติ เช่น การเปิดใช้งานนโยบายการควบคุมการเข้าถึง การเก็บรักษาข้อมูล Facebook กำลังเปิดตัวระบบที่เราสร้างขึ้นที่ Facebook ซึ่งใช้สัญญาณข้อมูลหลายสัญญาณ สถาปัตยกรรมระบบที่ปรับขนาดได้ และการเรียนรู้ของเครื่องเพื่อค้นหาประเภทข้อมูลความหมายที่ละเอียดอ่อน

การค้นพบและการจำแนกข้อมูลเป็นกระบวนการค้นหาและติดป้ายกำกับข้อมูลเพื่อให้สามารถดึงข้อมูลที่เกี่ยวข้องได้อย่างรวดเร็วและมีประสิทธิภาพเมื่อจำเป็น กระบวนการปัจจุบันค่อนข้างเป็นกระบวนการที่ต้องทำด้วยตนเองและประกอบด้วยการตรวจสอบกฎหมายหรือข้อบังคับที่เกี่ยวข้อง กำหนดประเภทของข้อมูลที่ควรพิจารณาว่าละเอียดอ่อน และระดับความอ่อนไหวที่แตกต่างกันคือเท่าใด จากนั้นจึงสร้างคลาสและนโยบายการจำแนกประเภทตามนั้น [1] การป้องกันข้อมูลสูญหาย (DLP) จากนั้นจะพิมพ์ลายนิ้วมือของข้อมูลและติดตามจุดสิ้นสุดดาวน์สตรีมเพื่อรับลายนิ้วมือ เมื่อต้องจัดการกับคลังสินค้าที่มีสินทรัพย์จำนวนมากซึ่งมีข้อมูลหลายเพตะไบต์ แนวทางนี้ไม่ได้ปรับขนาด

เป้าหมายของเราคือการสร้างระบบการจำแนกข้อมูลที่ปรับขนาดตามข้อมูลผู้ใช้ที่แข็งแกร่งและข้อมูลชั่วคราว โดยไม่มีข้อจำกัดเพิ่มเติมเกี่ยวกับประเภทหรือรูปแบบข้อมูล นี่เป็นเป้าหมายที่กล้าหาญ และแน่นอนว่ามันมาพร้อมกับความท้าทาย บันทึกข้อมูลที่ระบุสามารถมีความยาวได้หลายพันอักขระ

การจัดหมวดหมู่ข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัว
รูปที่ 1 โฟลว์การคาดการณ์ออนไลน์และออฟไลน์

ดังนั้นเราจึงต้องแสดงมันอย่างมีประสิทธิภาพโดยใช้ชุดคุณสมบัติทั่วไปที่สามารถรวมเข้าด้วยกันและเคลื่อนย้ายได้ง่ายในภายหลัง คุณลักษณะเหล่านี้ไม่เพียงแต่จะให้การจำแนกประเภทที่ถูกต้องเท่านั้น แต่ยังให้ความยืดหยุ่นและความสามารถในการขยายเพื่อเพิ่มและค้นพบประเภทข้อมูลใหม่ได้อย่างง่ายดายในอนาคต ประการที่สอง คุณต้องจัดการกับตารางออฟไลน์ขนาดใหญ่ ข้อมูลที่คงทนสามารถจัดเก็บไว้ในตารางที่มีขนาดหลายเพตะไบต์ได้ ซึ่งอาจส่งผลให้ความเร็วในการสแกนช้าลง ประการที่สาม เราต้องปฏิบัติตามการจัดประเภท SLA ที่เข้มงวดเกี่ยวกับข้อมูลที่ผันผวน ส่งผลให้ระบบมีประสิทธิภาพสูง รวดเร็ว และแม่นยำ สุดท้ายนี้ เราต้องจัดให้มีการจัดประเภทข้อมูลเวลาแฝงต่ำสำหรับข้อมูลที่เปลี่ยนแปลงได้เพื่อดำเนินการจัดประเภทแบบเรียลไทม์ตลอดจนกรณีการใช้งานอินเทอร์เน็ต

บทความนี้จะอธิบายวิธีที่เราจัดการกับความท้าทายข้างต้น และนำเสนอระบบการจำแนกประเภทที่รวดเร็วและปรับขนาดได้ ซึ่งจัดประเภทองค์ประกอบข้อมูลทุกประเภท รูปแบบ และแหล่งที่มาตามชุดคุณลักษณะทั่วไป เราขยายสถาปัตยกรรมระบบและสร้างโมเดลการเรียนรู้ของเครื่องแบบกำหนดเองเพื่อจำแนกข้อมูลออฟไลน์และออนไลน์ได้อย่างรวดเร็ว บทความนี้มีการจัดดังนี้ ส่วนที่ 2 นำเสนอการออกแบบโดยรวมของระบบ ส่วนที่ 3 กล่าวถึงส่วนต่างๆ ของระบบการเรียนรู้ของเครื่อง ส่วนที่ 4 และ 5 เน้นงานที่เกี่ยวข้องและสรุปทิศทางการทำงานในอนาคต

สถาปัตยกรรม

เพื่อจัดการกับความท้าทายของข้อมูลออนไลน์ที่คงอยู่และระดับ Facebook ระบบการจำแนกประเภทจึงมีสองสตรีมแยกกัน ซึ่งเราจะหารือในรายละเอียด

ข้อมูลที่ยั่งยืน

ในเบื้องต้นระบบจะต้องเรียนรู้เกี่ยวกับทรัพย์สินข้อมูลมากมายของ Facebook สำหรับแต่ละพื้นที่เก็บข้อมูล ข้อมูลพื้นฐานบางอย่างจะถูกรวบรวม เช่น ศูนย์ข้อมูลที่มีข้อมูลนั้น ระบบที่มีข้อมูลนั้น และสินทรัพย์ที่อยู่ในพื้นที่เก็บข้อมูลเฉพาะ สิ่งนี้จะสร้างแค็ตตาล็อกเมตาดาต้าที่ช่วยให้ระบบดึงข้อมูลได้อย่างมีประสิทธิภาพโดยไม่ต้องโหลดไคลเอนต์และทรัพยากรที่วิศวกรคนอื่นใช้มากเกินไป

แค็ตตาล็อกข้อมูลเมตานี้เป็นแหล่งข้อมูลที่เชื่อถือได้สำหรับเนื้อหาที่สแกนทั้งหมด และช่วยให้คุณสามารถติดตามสถานะของเนื้อหาต่างๆ การใช้ข้อมูลนี้ ลำดับความสำคัญของกำหนดการจะถูกสร้างขึ้นตามข้อมูลที่รวบรวมและข้อมูลภายในจากระบบ เช่น เวลาที่สแกนเนื้อหาสำเร็จครั้งล่าสุดและเวลาที่สร้างขึ้น รวมถึงข้อกำหนดหน่วยความจำและ CPU ที่ผ่านมาสำหรับเนื้อหานั้นหาก มันถูกสแกนมาก่อน จากนั้น สำหรับแต่ละทรัพยากรข้อมูล (เมื่อทรัพยากรพร้อมใช้งาน) งานจะถูกเรียกให้สแกนทรัพยากรจริง

แต่ละงานเป็นไฟล์ไบนารีที่คอมไพล์แล้วซึ่งดำเนินการสุ่มตัวอย่าง Bernoulli กับข้อมูลล่าสุดที่มีอยู่สำหรับแต่ละสินทรัพย์ เนื้อหาจะถูกแบ่งออกเป็นแต่ละคอลัมน์ โดยที่ผลการจัดหมวดหมู่ของแต่ละคอลัมน์จะได้รับการประมวลผลแยกกัน นอกจากนี้ ระบบจะสแกนหาข้อมูลที่อิ่มตัวภายในคอลัมน์ JSON, อาร์เรย์, โครงสร้างที่เข้ารหัส, URL, ข้อมูลซีเรียลไลซ์ฐาน 64 และอื่นๆ ล้วนถูกสแกนแล้ว ซึ่งสามารถเพิ่มเวลาดำเนินการสแกนได้อย่างมาก เนื่องจากตารางเดียวสามารถมีคอลัมน์ที่ซ้อนกันหลายพันคอลัมน์ใน Blob json.

สำหรับแต่ละแถวที่เลือกในเนื้อหาข้อมูล ระบบการจำแนกประเภทจะแยกออบเจ็กต์ลอยและข้อความออกจากเนื้อหา และเชื่อมโยงแต่ละออบเจ็กต์กลับไปยังคอลัมน์ที่ดึงข้อมูลนั้นมา ผลลัพธ์ของขั้นตอนการแยกคุณลักษณะคือแผนผังของคุณลักษณะทั้งหมดสำหรับแต่ละคอลัมน์ที่พบในเนื้อหาข้อมูล

สัญญาณมีไว้เพื่ออะไร?

แนวคิดเรื่องคุณลักษณะเป็นสิ่งสำคัญ แทนที่จะเป็นลักษณะลอยตัวและข้อความ เราสามารถส่งตัวอย่างสตริงดิบที่แยกออกมาจากแหล่งข้อมูลแต่ละแห่งได้โดยตรง นอกจากนี้ โมเดลแมชชีนเลิร์นนิงสามารถฝึกได้โดยตรงในแต่ละตัวอย่าง แทนที่จะต้องคำนวณฟีเจอร์นับร้อยที่พยายามประมาณตัวอย่างเท่านั้น มีหลายสาเหตุนี้:

  1. ความเป็นส่วนตัวต้องมาก่อน: สิ่งสำคัญที่สุดคือ แนวคิดของฟีเจอร์ช่วยให้เราจัดเก็บเฉพาะรูปแบบที่เราดึงข้อมูลไว้ในหน่วยความจำเท่านั้น สิ่งนี้ทำให้แน่ใจได้ว่าเราจะจัดเก็บตัวอย่างเพื่อจุดประสงค์เดียว และไม่บันทึกข้อมูลเหล่านั้นด้วยความพยายามของเราเอง นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับข้อมูลที่ผันผวน เนื่องจากบริการจะต้องคงสถานะการจัดหมวดหมู่ไว้ก่อนที่จะทำการคาดการณ์
  2. หน่วยความจำ: ตัวอย่างบางรายการอาจมีความยาวได้หลายพันอักขระ การจัดเก็บข้อมูลดังกล่าวและส่งไปยังบางส่วนของระบบจะใช้ไบต์เพิ่มเติมจำนวนมากโดยไม่จำเป็น ปัจจัยทั้งสองสามารถรวมกันได้เมื่อเวลาผ่านไป เนื่องจากมีแหล่งข้อมูลจำนวนมากที่มีคอลัมน์นับพันคอลัมน์
  3. การรวมคุณสมบัติ: คุณสมบัติแสดงผลลัพธ์ของการสแกนแต่ละครั้งอย่างชัดเจนผ่านชุดคุณสมบัติ ทำให้ระบบสามารถรวมผลลัพธ์ของการสแกนครั้งก่อนของแหล่งข้อมูลเดียวกันในวิธีที่สะดวก สิ่งนี้มีประโยชน์สำหรับการรวบรวมผลลัพธ์การสแกนจากแหล่งข้อมูลเดียวจากการทำงานหลายครั้ง

จากนั้นฟีเจอร์จะถูกส่งไปยังบริการการทำนายซึ่งเราใช้การจำแนกตามกฎและการเรียนรู้ของเครื่องเพื่อทำนายป้ายกำกับข้อมูลของแต่ละคอลัมน์ บริการอาศัยทั้งตัวแยกประเภทกฎและการเรียนรู้ของเครื่อง และเลือกการคาดการณ์ที่ดีที่สุดที่กำหนดจากออบเจ็กต์การคาดการณ์แต่ละรายการ

ตัวแยกประเภทกฎเป็นแบบฮิวริสติกแบบแมนนวล โดยจะใช้การคำนวณและค่าสัมประสิทธิ์เพื่อทำให้ออบเจ็กต์เป็นมาตรฐานในช่วง 0 ถึง 100 เมื่อสร้างคะแนนเริ่มต้นสำหรับประเภทข้อมูลและชื่อคอลัมน์แต่ละประเภทที่เกี่ยวข้องกับข้อมูลนั้นแล้ว คะแนนดังกล่าวจะไม่รวมอยู่ใน "การห้าม" ใดๆ รายการ" ตัวแยกประเภทกฎจะเลือกคะแนนมาตรฐานสูงสุดจากประเภทข้อมูลทั้งหมด

เนื่องจากความซับซ้อนของการจำแนกประเภท การใช้การวิเคราะห์พฤติกรรมด้วยตนเองเพียงอย่างเดียว ส่งผลให้มีความแม่นยำในการจำแนกประเภทต่ำ โดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่ไม่มีโครงสร้าง ด้วยเหตุนี้ เราจึงพัฒนาระบบการเรียนรู้ของเครื่องเพื่อทำงานกับการจำแนกประเภทของข้อมูลที่ไม่มีโครงสร้าง เช่น เนื้อหาและที่อยู่ของผู้ใช้ การเรียนรู้ของเครื่องทำให้สามารถเริ่มเปลี่ยนจากการวิเคราะห์พฤติกรรมด้วยตนเอง และใช้สัญญาณข้อมูลเพิ่มเติม (เช่น ชื่อคอลัมน์ แหล่งที่มาของข้อมูล) ปรับปรุงความแม่นยำในการตรวจจับได้อย่างมาก เราจะเจาะลึกเกี่ยวกับสถาปัตยกรรมการเรียนรู้ของเครื่องของเราในภายหลัง

บริการคาดการณ์จะจัดเก็บผลลัพธ์สำหรับแต่ละคอลัมน์พร้อมกับข้อมูลเมตาที่เกี่ยวข้องกับเวลาและสถานะของการสแกน ผู้บริโภคและกระบวนการดาวน์สตรีมใดๆ ที่อาศัยข้อมูลนี้สามารถอ่านได้จากชุดข้อมูลที่เผยแพร่รายวัน ชุดนี้จะรวมผลลัพธ์ของงานสแกนทั้งหมดหรือ API แค็ตตาล็อกข้อมูลแบบเรียลไทม์ การคาดการณ์ที่เผยแพร่เป็นรากฐานสำหรับการบังคับใช้นโยบายความเป็นส่วนตัวและความปลอดภัยโดยอัตโนมัติ

ในที่สุด หลังจากที่บริการพยากรณ์เขียนข้อมูลทั้งหมดและจัดเก็บการคาดการณ์ทั้งหมดแล้ว Data Catalog API ของเราก็สามารถส่งคืนการคาดการณ์ประเภทข้อมูลทั้งหมดสำหรับทรัพยากรแบบเรียลไทม์ได้ ทุกวันระบบจะเผยแพร่ชุดข้อมูลที่มีการคาดการณ์ล่าสุดทั้งหมดสำหรับแต่ละสินทรัพย์

ข้อมูลที่มีความผันผวน

แม้ว่ากระบวนการข้างต้นได้รับการออกแบบสำหรับสินทรัพย์ที่มีอยู่ แต่การรับส่งข้อมูลที่ไม่ถาวรยังถือว่าเป็นส่วนหนึ่งของข้อมูลขององค์กรและอาจมีความสำคัญ ด้วยเหตุนี้ ระบบจึงจัดให้มี API ออนไลน์สำหรับการสร้างการคาดการณ์การจัดหมวดหมู่แบบเรียลไทม์สำหรับการรับส่งข้อมูลที่ไม่ต่อเนื่อง ระบบพยากรณ์แบบเรียลไทม์ถูกนำมาใช้กันอย่างแพร่หลายในการจำแนกทราฟฟิกขาออก ทราฟฟิกขาเข้าเป็นโมเดลการเรียนรู้ของเครื่อง และข้อมูลผู้ลงโฆษณา

ที่นี่ API รับสองอาร์กิวเมนต์หลัก: คีย์การจัดกลุ่มและข้อมูลดิบที่จะคาดการณ์ บริการดำเนินการเรียกวัตถุเดียวกันตามที่อธิบายไว้ข้างต้น และจัดกลุ่มวัตถุเข้าด้วยกันสำหรับคีย์เดียวกัน คุณลักษณะเหล่านี้ยังได้รับการสนับสนุนในแคชคงอยู่สำหรับการกู้คืนความล้มเหลว สำหรับคีย์การจัดกลุ่มแต่ละคีย์ บริการจะตรวจสอบให้แน่ใจว่าได้เห็นตัวอย่างเพียงพอก่อนที่จะเรียกใช้บริการการคาดคะเน ตามกระบวนการที่อธิบายไว้ข้างต้น

การเพิ่มประสิทธิภาพ

ในการสแกนพื้นที่จัดเก็บข้อมูลบางส่วน เราใช้ไลบรารีและเทคนิคเพื่อเพิ่มประสิทธิภาพการอ่านจากพื้นที่จัดเก็บข้อมูลร้อน [2] และรับประกันว่าจะไม่มีการหยุดชะงักจากผู้ใช้รายอื่นในการเข้าถึงพื้นที่จัดเก็บข้อมูลเดียวกัน

สำหรับตารางที่มีขนาดใหญ่มาก (50+ เพตาไบต์) แม้จะมีการเพิ่มประสิทธิภาพและประสิทธิภาพของหน่วยความจำทั้งหมด ระบบก็ยังสแกนและคำนวณทุกอย่างก่อนที่หน่วยความจำจะหมด ท้ายที่สุดแล้ว การสแกนจะถูกคำนวณทั้งหมดไว้ในหน่วยความจำ และจะไม่ถูกจัดเก็บไว้ระหว่างการสแกน หากตารางขนาดใหญ่มีคอลัมน์หลายพันคอลัมน์ที่มีกลุ่มข้อมูลที่ไม่มีโครงสร้าง งานอาจล้มเหลวเนื่องจากทรัพยากรหน่วยความจำไม่เพียงพอเมื่อทำการคาดการณ์ทั้งตาราง ซึ่งจะส่งผลให้ความคุ้มครองลดลง เพื่อต่อสู้กับสิ่งนี้ เราได้ปรับระบบให้เหมาะสมเพื่อใช้ความเร็วในการสแกนเป็นพร็อกซีเพื่อให้ระบบจัดการกับปริมาณงานปัจจุบันได้ดีเพียงใด เราใช้ความเร็วเป็นกลไกในการทำนายเพื่อดูปัญหาหน่วยความจำและคำนวณแผนผังคุณลักษณะแบบคาดการณ์ได้ ในขณะเดียวกัน เราก็ใช้ข้อมูลน้อยกว่าปกติ

สัญญาณข้อมูล

ระบบการจำแนกประเภทจะดีพอๆ กับสัญญาณจากข้อมูลเท่านั้น ที่นี่เราจะดูสัญญาณทั้งหมดที่ใช้โดยระบบการจำแนกประเภท

  • ตามเนื้อหา: แน่นอนว่าสัญญาณแรกและสำคัญที่สุดคือเนื้อหา การสุ่มตัวอย่าง Bernoulli ดำเนินการกับสินทรัพย์ข้อมูลแต่ละรายการที่เราสแกนและแยกคุณสมบัติตามเนื้อหาข้อมูล สัญญาณมากมายมาจากเนื้อหา วัตถุลอยได้จำนวนเท่าใดก็ได้ ซึ่งแสดงถึงการคำนวณจำนวนครั้งที่มีการดูตัวอย่างประเภทใดประเภทหนึ่ง ตัวอย่างเช่น เราอาจมีสัญญาณของจำนวนอีเมลที่เห็นในตัวอย่าง หรือสัญญาณของจำนวนอีโมจิที่เห็นในตัวอย่าง การคำนวณคุณสมบัติเหล่านี้สามารถทำให้เป็นมาตรฐานและรวมไว้ในการสแกนต่างๆ ได้
  • แหล่งที่มาของข้อมูล: สัญญาณสำคัญที่สามารถช่วยเหลือได้เมื่อเนื้อหามีการเปลี่ยนแปลงจากตารางหลัก ตัวอย่างทั่วไปคือข้อมูลที่แฮช เมื่อข้อมูลในตารางลูกถูกแฮช ข้อมูลนั้นมักจะมาจากตารางหลักโดยที่ข้อมูลจะยังคงอยู่ในตารางที่ชัดเจน ข้อมูล Lineage ช่วยจัดประเภทข้อมูลบางประเภทเมื่ออ่านได้ไม่ชัดเจนหรือถูกแปลงจากตารางอัปสตรีม
  • คำอธิบายประกอบ: อีกหนึ่งสัญญาณคุณภาพสูงที่ช่วยในการระบุข้อมูลที่ไม่มีโครงสร้าง ในความเป็นจริง คำอธิบายประกอบและข้อมูลแหล่งที่มาสามารถทำงานร่วมกันเพื่อเผยแพร่แอตทริบิวต์ไปยังเนื้อหาข้อมูลต่างๆ ได้ คำอธิบายประกอบช่วยระบุแหล่งที่มาของข้อมูลที่ไม่มีโครงสร้าง ในขณะที่ข้อมูลเชื้อสายสามารถช่วยติดตามการไหลของข้อมูลนั้นทั่วทั้งพื้นที่เก็บข้อมูล
  • การแทรกข้อมูลเป็นเทคนิคที่จงใจนำอักขระพิเศษที่อ่านไม่ได้เข้าไปในแหล่งข้อมูลที่รู้จักของประเภทข้อมูลที่รู้จัก จากนั้น เมื่อใดก็ตามที่เราสแกนเนื้อหาด้วยลำดับอักขระที่อ่านไม่ได้เหมือนกัน เราสามารถอนุมานได้ว่าเนื้อหานั้นมาจากประเภทข้อมูลที่รู้จักนั้น นี่เป็นสัญญาณข้อมูลเชิงคุณภาพอีกสัญญาณหนึ่งที่คล้ายกับคำอธิบายประกอบ ยกเว้นว่าการตรวจจับตามเนื้อหาจะช่วยค้นหาข้อมูลที่ป้อน

การวัดตัวชี้วัด

องค์ประกอบที่สำคัญคือระเบียบวิธีที่เข้มงวดในการวัดหน่วยเมตริก ตัวชี้วัดหลักสำหรับการปรับปรุงการจำแนกประเภทซ้ำคือความแม่นยำและการเรียกคืนฉลากแต่ละป้าย โดยคะแนน F2 คือคะแนนที่สำคัญที่สุด

ในการคำนวณหน่วยเมตริกเหล่านี้ จำเป็นต้องใช้วิธีการอิสระในการติดป้ายกำกับสินทรัพย์ข้อมูลซึ่งไม่ขึ้นอยู่กับตัวระบบ แต่สามารถใช้เพื่อการเปรียบเทียบโดยตรงกับระบบได้ ด้านล่างนี้เราจะอธิบายวิธีที่เรารวบรวมความจริงภาคพื้นดินจาก Facebook และใช้เพื่อฝึกระบบการจัดหมวดหมู่ของเรา

การรวบรวมข้อมูลที่เชื่อถือได้

เรารวบรวมข้อมูลที่เชื่อถือได้จากแต่ละแหล่งตามรายการด้านล่างลงในตารางของตัวเอง แต่ละตารางมีหน้าที่รวบรวมค่าที่สังเกตได้ล่าสุดจากแหล่งนั้น ๆ แต่ละแหล่งมีการตรวจสอบคุณภาพข้อมูลเพื่อให้แน่ใจว่าค่าที่สังเกตได้สำหรับแต่ละแหล่งมีคุณภาพสูงและมีป้ายกำกับประเภทข้อมูลล่าสุด

  • การกำหนดค่าแพลตฟอร์มการบันทึก: บางฟิลด์ในตารางไฮฟ์จะถูกเติมด้วยข้อมูลที่เป็นประเภทเฉพาะ การใช้และการเผยแพร่ข้อมูลนี้ถือเป็นแหล่งความจริงที่เชื่อถือได้
  • การติดป้ายกำกับด้วยตนเอง: นักพัฒนาที่ดูแลระบบตลอดจนผู้ติดป้ายกำกับภายนอกได้รับการฝึกอบรมให้ติดป้ายกำกับคอลัมน์ โดยทั่วไปวิธีนี้ใช้ได้ผลดีกับข้อมูลทุกประเภทในคลังสินค้า และสามารถเป็นแหล่งข้อมูลหลักสำหรับข้อมูลที่ไม่มีโครงสร้างบางอย่าง เช่น ข้อมูลข้อความหรือเนื้อหาผู้ใช้
  • คอลัมน์จากตารางหลักสามารถทำเครื่องหมายหรือใส่คำอธิบายประกอบว่ามีข้อมูลบางอย่าง และเราสามารถติดตามข้อมูลนั้นในตารางย่อยได้
  • การดึงเธรดการดำเนินการ: เธรดการดำเนินการใน Facebook มีข้อมูลประเภทเฉพาะ การใช้เครื่องสแกนของเราเป็นสถาปัตยกรรมบริการ ทำให้เราสามารถสุ่มตัวอย่างสตรีมที่มีประเภทข้อมูลที่รู้จักและส่งผ่านระบบได้ ระบบสัญญาว่าจะไม่จัดเก็บข้อมูลนี้
  • ตารางตัวอย่าง: ตารางไฮฟ์ขนาดใหญ่ซึ่งทราบกันว่ามีคลังข้อมูลทั้งหมด ยังสามารถใช้เป็นข้อมูลการฝึกอบรมและส่งผ่านเครื่องสแกนเป็นบริการได้ วิธีนี้เหมาะสำหรับตารางที่มีประเภทข้อมูลครบถ้วน ดังนั้นการสุ่มตัวอย่างคอลัมน์จะเทียบเท่ากับการสุ่มตัวอย่างทั้งชุดของประเภทข้อมูลนั้น
  • ข้อมูลสังเคราะห์: เราสามารถใช้ไลบรารี่ที่สร้างข้อมูลได้ทันที วิธีนี้ใช้ได้ผลดีกับประเภทข้อมูลสาธารณะทั่วไป เช่น ที่อยู่หรือ GPS
  • ผู้ดูแลข้อมูล: โดยทั่วไปโปรแกรมความเป็นส่วนตัวจะใช้ผู้ดูแลข้อมูลเพื่อกำหนดนโยบายให้กับชิ้นส่วนของข้อมูลด้วยตนเอง สิ่งนี้ทำหน้าที่เป็นแหล่งความจริงที่มีความแม่นยำสูง

เรารวมแหล่งข้อมูลความจริงที่สำคัญทุกแห่งไว้ในคลังข้อมูลเดียวพร้อมกับข้อมูลทั้งหมดนั้น ความท้าทายที่ใหญ่ที่สุดเกี่ยวกับความถูกต้องคือการทำให้แน่ใจว่ามันเป็นตัวแทนของพื้นที่เก็บข้อมูล มิฉะนั้น กลไกการจำแนกประเภทอาจทำงานหนักเกินไป เพื่อต่อสู้กับสิ่งนี้ แหล่งข้อมูลข้างต้นทั้งหมดจะถูกนำมาใช้เพื่อให้แน่ใจว่ามีความสมดุลเมื่อฝึกฝนโมเดลหรือคำนวณหน่วยวัด นอกจากนี้ ผู้ติดป้ายกำกับที่เป็นมนุษย์จะสุ่มตัวอย่างคอลัมน์ต่างๆ ในพื้นที่เก็บข้อมูลอย่างสม่ำเสมอ และติดป้ายกำกับข้อมูลตามนั้น เพื่อให้การรวบรวมความจริงจากการภาคพื้นดินยังคงเป็นกลาง

การบูรณาการอย่างต่อเนื่อง

เพื่อให้แน่ใจถึงการทำซ้ำและการปรับปรุงอย่างรวดเร็ว สิ่งสำคัญคือต้องวัดประสิทธิภาพของระบบแบบเรียลไทม์เสมอ ปัจจุบันเราสามารถวัดการปรับปรุงการจำแนกประเภทเทียบกับระบบได้ในปัจจุบัน เพื่อให้เราสามารถแนะนำการปรับปรุงในอนาคตตามข้อมูลได้อย่างมีกลยุทธ์ ที่นี่เราจะดูว่าระบบดำเนินการวนความคิดเห็นที่ได้รับจากข้อมูลที่ถูกต้องได้อย่างไร

เมื่อระบบการจัดกำหนดการพบสินทรัพย์ที่มีป้ายกำกับจากแหล่งที่เชื่อถือได้ เราจะจัดกำหนดการงานสองรายการ ขั้นแรกใช้เครื่องสแกนการผลิตของเราและด้วยความสามารถในการผลิตของเรา งานที่สองใช้เครื่องสแกนบิลด์ล่าสุดพร้อมคุณสมบัติล่าสุด แต่ละงานเขียนเอาต์พุตลงในตารางของตัวเอง โดยแท็กเวอร์ชันพร้อมกับผลลัพธ์การจัดหมวดหมู่

นี่คือวิธีที่เราเปรียบเทียบผลลัพธ์การจำแนกประเภทของตัวเลือกที่จะเปิดตัวและโมเดลการผลิตแบบเรียลไทม์

แม้ว่าชุดข้อมูลจะเปรียบเทียบคุณลักษณะ RC และ PROD แต่กลไกการจัดประเภท ML ของบริการการคาดคะเนรูปแบบต่างๆ จะถูกบันทึกไว้ โมเดลแมชชีนเลิร์นนิงที่สร้างขึ้นล่าสุด โมเดลปัจจุบันที่ใช้งานจริง และโมเดลทดลองใดๆ วิธีการเดียวกันนี้ช่วยให้เรา "แบ่ง" เวอร์ชันต่างๆ ของโมเดลได้ (ขึ้นอยู่กับตัวแยกประเภทกฎของเรา) และเปรียบเทียบเมตริกแบบเรียลไทม์ ซึ่งทำให้ง่ายต่อการระบุเมื่อการทดสอบ ML พร้อมที่จะเข้าสู่การใช้งานจริง

ในแต่ละคืน คุณสมบัติ RC ที่คำนวณสำหรับวันนั้นจะถูกส่งไปยังไปป์ไลน์การฝึกอบรม ML โดยที่โมเดลจะได้รับการฝึกอบรมเกี่ยวกับคุณสมบัติ RC ล่าสุด และประเมินประสิทธิภาพโดยเทียบกับชุดข้อมูลความจริงภาคพื้นดิน

ทุกเช้า โมเดลจะเสร็จสิ้นการฝึกอบรมและเผยแพร่เป็นโมเดลทดลองโดยอัตโนมัติ จะถูกรวมไว้ในรายการทดลองโดยอัตโนมัติ

ผลลัพธ์บางอย่าง

ข้อมูลประเภทต่างๆ มากกว่า 100 ประเภทมีป้ายกำกับที่มีความแม่นยำสูง ประเภทที่มีโครงสร้างที่ดี เช่น อีเมลและหมายเลขโทรศัพท์ ถูกจัดประเภทด้วยคะแนน f2 มากกว่า 0,95 ประเภทข้อมูลฟรี เช่น เนื้อหาและชื่อที่ผู้ใช้สร้างขึ้นก็ทำงานได้ดีเช่นกัน โดยมีคะแนน F2 มากกว่า 0,85

แต่ละคอลัมน์ของข้อมูลถาวรและข้อมูลผันผวนจำนวนมากจะถูกจัดประเภททุกวันในที่เก็บข้อมูลทั้งหมด มีการสแกนมากกว่า 500 เทราไบต์ทุกวันในคลังข้อมูลมากกว่า 10 แห่ง พื้นที่เก็บข้อมูลเหล่านี้ส่วนใหญ่มีความครอบคลุมมากกว่า 98%

เมื่อเวลาผ่านไป การจัดหมวดหมู่มีประสิทธิภาพมากขึ้น โดยงานการจัดหมวดหมู่ในสตรีมออฟไลน์ที่ยังคงมีอยู่จะใช้เวลาเฉลี่ย 35 วินาทีตั้งแต่การสแกนเนื้อหาไปจนถึงการคำนวณการคาดการณ์สำหรับแต่ละคอลัมน์

การจัดหมวดหมู่ข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัว
ข้าว. 2. แผนภาพที่อธิบายโฟลว์การรวมอย่างต่อเนื่องเพื่อทำความเข้าใจวิธีการสร้างและส่งออบเจ็กต์ RC ไปยังโมเดล

การจัดหมวดหมู่ข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัว
รูปที่ 3 แผนภาพระดับสูงของส่วนประกอบการเรียนรู้ของเครื่อง

ส่วนประกอบของระบบการเรียนรู้ของเครื่อง

ในส่วนก่อนหน้านี้ เราได้เจาะลึกเกี่ยวกับสถาปัตยกรรมระบบโดยรวม โดยเน้นที่ขนาด การเพิ่มประสิทธิภาพ และกระแสข้อมูลออฟไลน์และออนไลน์ ในส่วนนี้ เราจะดูบริการพยากรณ์และอธิบายระบบการเรียนรู้ของเครื่องที่ขับเคลื่อนบริการพยากรณ์

ด้วยประเภทข้อมูลมากกว่า 100 ประเภทและเนื้อหาที่ไม่มีโครงสร้างบางอย่าง เช่น ข้อมูลข้อความและเนื้อหาผู้ใช้ การใช้การวิเคราะห์พฤติกรรมด้วยตนเองล้วนๆ จะส่งผลให้เกิดความแม่นยำในการจำแนกประเภทย่อยแบบพารามิเตอร์ โดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่ไม่มีโครงสร้าง ด้วยเหตุนี้ เรายังได้พัฒนาระบบการเรียนรู้ของเครื่องเพื่อจัดการกับความซับซ้อนของข้อมูลที่ไม่มีโครงสร้าง การใช้แมชชีนเลิร์นนิงช่วยให้คุณเริ่มเปลี่ยนจากการวิเคราะห์พฤติกรรมด้วยตนเอง และทำงานกับฟีเจอร์และสัญญาณข้อมูลเพิ่มเติม (เช่น ชื่อคอลัมน์ ที่มาของข้อมูล) เพื่อปรับปรุงความแม่นยำ

แบบจำลองที่นำมาใช้ศึกษาการแสดงเวกเตอร์ [3] บนวัตถุหนาแน่นและกระจัดกระจายแยกจากกัน จากนั้นสิ่งเหล่านี้จะรวมกันเพื่อสร้างเวกเตอร์ ซึ่งต้องผ่านชุดของการทำให้เป็นมาตรฐานแบบแบทช์ [4] และขั้นตอนที่ไม่เชิงเส้นเพื่อให้ได้ผลลัพธ์สุดท้าย ผลลัพธ์สุดท้ายคือตัวเลขทศนิยมระหว่าง [0-1] สำหรับแต่ละป้ายกำกับ ซึ่งบ่งบอกถึงความน่าจะเป็นที่ตัวอย่างอยู่ในประเภทความไวนั้น การใช้ PyTorch สำหรับโมเดลช่วยให้เราดำเนินการได้เร็วขึ้น ช่วยให้นักพัฒนาภายนอกทีมทำและทดสอบการเปลี่ยนแปลงได้อย่างรวดเร็ว

เมื่อออกแบบสถาปัตยกรรม สิ่งสำคัญคือต้องจำลองวัตถุกระจัดกระจาย (เช่น ข้อความ) และวัตถุหนาแน่น (เช่น ตัวเลข) แยกกัน เนื่องจากความแตกต่างโดยธรรมชาติ สำหรับสถาปัตยกรรมขั้นสุดท้าย สิ่งสำคัญคือต้องดำเนินการกวาดล้างพารามิเตอร์เพื่อค้นหาค่าที่เหมาะสมที่สุดสำหรับอัตราการเรียนรู้ ขนาดแบทช์ และไฮเปอร์พารามิเตอร์อื่นๆ การเลือกเครื่องมือเพิ่มประสิทธิภาพก็เป็นไฮเปอร์พารามิเตอร์ที่สำคัญเช่นกัน เราพบว่าเครื่องมือเพิ่มประสิทธิภาพยอดนิยม อาดัมมักจะนำไปสู่การฟิตติ้งมากเกินไป ในขณะที่โมเดลที่มี ดอลลาร์สิงคโปร์ มีเสถียรภาพมากขึ้น มีความแตกต่างเพิ่มเติมที่เราต้องรวมไว้ในโมเดลโดยตรง ตัวอย่างเช่น กฎคงที่ที่ทำให้แน่ใจได้ว่าแบบจำลองจะทำการคาดการณ์ตามที่กำหนดเมื่อคุณลักษณะมีค่าที่แน่นอน กฎคงที่เหล่านี้ถูกกำหนดโดยลูกค้าของเรา เราพบว่าการรวมสิ่งเหล่านี้เข้ากับโมเดลโดยตรงส่งผลให้ได้สถาปัตยกรรมที่มีความสมบูรณ์ในตัวเองและแข็งแกร่งมากขึ้น เมื่อเทียบกับการใช้ขั้นตอนหลังการประมวลผลเพื่อจัดการกับ Edge Case พิเศษเหล่านี้ โปรดทราบว่ากฎเหล่านี้จะถูกปิดใช้งานระหว่างการฝึกเพื่อไม่ให้รบกวนกระบวนการฝึกแบบไล่ระดับ

ปัญหา

ความท้าทายประการหนึ่งคือการรวบรวมข้อมูลคุณภาพสูงและเชื่อถือได้ โมเดลต้องการความมั่นใจสำหรับแต่ละคลาสเพื่อให้สามารถเรียนรู้การเชื่อมโยงระหว่างออบเจ็กต์และป้ายกำกับได้ ในส่วนก่อนหน้านี้ เราได้กล่าวถึงวิธีการรวบรวมข้อมูลสำหรับทั้งการวัดระบบและการฝึกแบบจำลอง การวิเคราะห์แสดงให้เห็นว่าประเภทข้อมูล เช่น บัตรเครดิตและหมายเลขบัญชีธนาคารนั้นไม่ได้พบเห็นได้ทั่วไปในคลังสินค้าของเรา ทำให้ยากต่อการรวบรวมข้อมูลที่เชื่อถือได้จำนวนมากเพื่อฝึกโมเดล เพื่อแก้ไขปัญหานี้ เราได้พัฒนากระบวนการในการรับข้อมูลความจริงสังเคราะห์สำหรับชั้นเรียนเหล่านี้ เราสร้างข้อมูลดังกล่าวสำหรับประเภทที่ละเอียดอ่อนรวมถึง SSN, หมายเลขบัตรเครดิต и IBAN-ตัวเลขที่แบบจำลองไม่สามารถคาดเดาได้ก่อนหน้านี้ วิธีการนี้ช่วยให้สามารถประมวลผลประเภทข้อมูลที่ละเอียดอ่อนได้โดยไม่มีความเสี่ยงด้านความเป็นส่วนตัวที่เกี่ยวข้องกับการซ่อนข้อมูลที่ละเอียดอ่อนจริง

นอกจากประเด็นความจริงภาคพื้นดินแล้ว ยังมีประเด็นทางสถาปัตยกรรมแบบเปิดที่เรากำลังดำเนินการอยู่ เช่น เปลี่ยนความโดดเดี่ยว и หยุดก่อน. การแยกการเปลี่ยนแปลงเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าเมื่อมีการเปลี่ยนแปลงที่แตกต่างกันไปยังส่วนต่างๆ ของเครือข่าย ผลกระทบจะถูกแยกออกเป็นคลาสเฉพาะ และไม่มีผลกระทบในวงกว้างต่อประสิทธิภาพการคาดการณ์โดยรวม การปรับปรุงเกณฑ์การหยุดตั้งแต่เนิ่นๆ ก็มีความสำคัญเช่นกัน เพื่อให้เราสามารถหยุดกระบวนการฝึกอบรมในจุดที่มั่นคงสำหรับทุกชั้นเรียน แทนที่จะเป็นจุดที่บางชั้นเรียนมีการฝึกมากเกินไปและบางชั้นเรียนไม่ทำ

ความสำคัญของคุณสมบัติ

เมื่อมีการเปิดตัวคุณลักษณะใหม่ในโมเดล เราต้องการทราบผลกระทบโดยรวมที่มีต่อโมเดล เรายังต้องการให้แน่ใจว่าการคาดการณ์นั้นมนุษย์สามารถตีความได้ เพื่อที่เราจะได้เข้าใจได้อย่างชัดเจนว่าฟีเจอร์ใดที่ใช้กับข้อมูลแต่ละประเภท เพื่อจุดประสงค์นี้เราได้พัฒนาและแนะนำ ตามชั้นเรียน ความสำคัญของคุณสมบัติสำหรับโมเดล PyTorch โปรดทราบว่าสิ่งนี้แตกต่างจากความสำคัญของคุณลักษณะโดยรวม ซึ่งโดยปกติจะได้รับการสนับสนุน เนื่องจากไม่ได้บอกเราว่าคุณลักษณะใดมีความสำคัญสำหรับคลาสใดคลาสหนึ่งโดยเฉพาะ เราวัดความสำคัญของวัตถุโดยการคำนวณการเพิ่มขึ้นของข้อผิดพลาดในการทำนายหลังจากการจัดเรียงวัตถุใหม่ คุณลักษณะนี้ "สำคัญ" เมื่อการสลับค่าเพิ่มข้อผิดพลาดของโมเดล เนื่องจากในกรณีนี้ โมเดลต้องใช้คุณลักษณะในการคาดการณ์ คุณลักษณะนี้ "ไม่สำคัญ" เมื่อสับเปลี่ยนค่า จะทำให้ข้อผิดพลาดของโมเดลไม่เปลี่ยนแปลง เนื่องจากในกรณีนี้ โมเดลจะเพิกเฉย [5]

ความสำคัญของคุณลักษณะสำหรับแต่ละคลาสช่วยให้เราสามารถตีความโมเดลได้ เพื่อให้เราเห็นว่าโมเดลกำลังดูอะไรเมื่อคาดการณ์ป้ายกำกับ เช่นเมื่อเราวิเคราะห์ อดีอาร์แล้วเรารับประกันว่าป้ายที่เกี่ยวข้องกับที่อยู่เช่น ที่อยู่เส้นนับอยู่ในอันดับสูงในตารางความสำคัญของฟีเจอร์สำหรับแต่ละคลาส เพื่อให้สัญชาตญาณของมนุษย์ของเราเข้ากันได้ดีกับสิ่งที่โมเดลได้เรียนรู้

การประเมินผล

สิ่งสำคัญคือต้องกำหนดตัวชี้วัดเดียวเพื่อความสำเร็จ เราเลือก F2 - สมดุลระหว่างการเรียกคืนและความแม่นยำ (อคติในการเรียกคืนมีขนาดใหญ่กว่าเล็กน้อย) การเรียกคืนมีความสำคัญต่อกรณีการใช้งานความเป็นส่วนตัวมากกว่าความถูกต้อง เนื่องจากเป็นเรื่องสำคัญสำหรับทีมที่จะไม่พลาดข้อมูลที่ละเอียดอ่อนใดๆ (ในขณะเดียวกันก็รับประกันความถูกต้องที่สมเหตุสมผล) การประเมินประสิทธิภาพ F2 ที่แท้จริงของแบบจำลองของเรานั้นอยู่นอกเหนือขอบเขตของบทความนี้ อย่างไรก็ตาม ด้วยการปรับแต่งอย่างระมัดระวัง เราจึงสามารถได้รับคะแนน F0,9 สูง (2+) สำหรับคลาสที่มีความละเอียดอ่อนที่สำคัญที่สุด

งานที่เกี่ยวข้อง

มีอัลกอริธึมมากมายสำหรับการจำแนกประเภทเอกสารที่ไม่มีโครงสร้างโดยอัตโนมัติโดยใช้วิธีการต่างๆ เช่น การจับคู่รูปแบบ การค้นหาความคล้ายคลึงกันของเอกสาร และวิธีการเรียนรู้ของเครื่องต่างๆ (แบบเบย์ แผนผังการตัดสินใจ เพื่อนบ้าน k-ที่ใกล้ที่สุด และอื่นๆ อีกมากมาย) [6] สิ่งเหล่านี้สามารถใช้เป็นส่วนหนึ่งของการจำแนกประเภทได้ อย่างไรก็ตาม ปัญหาคือความสามารถในการขยายขนาด วิธีการจำแนกประเภทในบทความนี้มีความลำเอียงต่อความยืดหยุ่นและประสิทธิภาพ สิ่งนี้ช่วยให้เราสามารถรองรับคลาสใหม่ได้ในอนาคตและรักษาเวลาในการตอบสนองให้ต่ำ

ยังมีงานอีกมากเกี่ยวกับการพิมพ์ลายนิ้วมือข้อมูล ตัวอย่างเช่น ผู้เขียนใน [7] อธิบายวิธีแก้ปัญหาที่มุ่งเน้นไปที่ปัญหาการตรวจจับการรั่วไหลของข้อมูลที่ละเอียดอ่อน สมมติฐานพื้นฐานคือข้อมูลสามารถพิมพ์ลายนิ้วมือเพื่อให้ตรงกับชุดข้อมูลที่ละเอียดอ่อนที่รู้จัก ผู้เขียนใน [8] อธิบายปัญหาที่คล้ายกันเกี่ยวกับการรั่วไหลของความเป็นส่วนตัว แต่วิธีแก้ปัญหาของพวกเขานั้นขึ้นอยู่กับสถาปัตยกรรม Android ที่เฉพาะเจาะจง และจะถูกจัดประเภทเฉพาะเมื่อการกระทำของผู้ใช้ส่งผลให้เกิดการแบ่งปันข้อมูลส่วนบุคคล หรือหากแอปพลิเคชันที่เกี่ยวข้องทำให้ข้อมูลผู้ใช้รั่วไหล สถานการณ์ที่นี่ค่อนข้างแตกต่างออกไป เนื่องจากข้อมูลผู้ใช้อาจมีการขาดโครงสร้างอย่างมากเช่นกัน ดังนั้นเราจึงต้องมีเทคนิคที่ซับซ้อนมากกว่าการพิมพ์ลายนิ้วมือ

สุดท้ายนี้ เพื่อรับมือกับการขาดแคลนข้อมูลสำหรับข้อมูลที่ละเอียดอ่อนบางประเภท เราจึงได้แนะนำข้อมูลสังเคราะห์ มีวรรณกรรมจำนวนมากเกี่ยวกับการเพิ่มข้อมูล ตัวอย่างเช่น ผู้เขียนใน [9] สำรวจบทบาทของการแทรกเสียงในระหว่างการฝึกอบรมและสังเกตผลลัพธ์เชิงบวกในการเรียนรู้แบบมีผู้สอน แนวทางความเป็นส่วนตัวของเราแตกต่างออกไปเนื่องจากการแนะนำข้อมูลที่มีสัญญาณรบกวนอาจส่งผลเสีย และเรามุ่งเน้นไปที่ข้อมูลสังเคราะห์คุณภาพสูงแทน

ข้อสรุป

ในบทความนี้ เราได้นำเสนอระบบที่สามารถจำแนกชิ้นส่วนของข้อมูลได้ สิ่งนี้ช่วยให้เราสามารถสร้างระบบเพื่อบังคับใช้นโยบายความเป็นส่วนตัวและความปลอดภัยได้ เราได้แสดงให้เห็นว่าโครงสร้างพื้นฐานที่ปรับขนาดได้ การบูรณาการอย่างต่อเนื่อง การเรียนรู้ของเครื่อง และการรับประกันข้อมูลคุณภาพสูงมีบทบาทสำคัญในความสำเร็จของโครงการริเริ่มด้านความเป็นส่วนตัวหลายประการของเรา

มีหลายทิศทางสำหรับการทำงานในอนาคต ซึ่งอาจรวมถึงการให้การสนับสนุนข้อมูล (ไฟล์) ที่ไม่ได้จัดทำแผนผัง การจัดประเภทไม่เพียงแต่ประเภทข้อมูล แต่ยังรวมถึงระดับความไว และการใช้การเรียนรู้แบบมีผู้ดูแลด้วยตนเองในระหว่างการฝึกอบรมโดยการสร้างตัวอย่างสังเคราะห์ที่แม่นยำ ซึ่งในทางกลับกันก็จะช่วยให้โมเดลลดการสูญเสียได้มากที่สุด งานในอนาคตอาจมุ่งเน้นไปที่ขั้นตอนการทำงานสืบสวน ซึ่งเราไปไกลกว่าการตรวจจับและให้การวิเคราะห์สาเหตุของการละเมิดความเป็นส่วนตัวต่างๆ ซึ่งจะช่วยในกรณีต่างๆ เช่น การวิเคราะห์ความละเอียดอ่อน (เช่น ความละเอียดอ่อนด้านความเป็นส่วนตัวของประเภทข้อมูลจะสูง (เช่น IP ของผู้ใช้) หรือต่ำ (เช่น IP ภายในของ Facebook))

บรรณานุกรม

  1. เดวิด เบน-เดวิด, ทามาร์ โดมานี และอบิเกล ทาเร็ม การจำแนกข้อมูลองค์กรโดยใช้เทคโนโลยีเว็บเชิงความหมาย ใน Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks และ Birte Glimm บรรณาธิการ เว็บความหมาย – ISWC 2010, หน้า 66–81, เบอร์ลิน, ไฮเดลเบิร์ก, 2010. Springer Berlin Heidelberg.
  2. ซูบรามาเนียน มูราลิธาร์, ไวแอตต์ ลอยด์, ซับยาซาชิ รอย, คอรี ฮิลล์, เออร์เนสต์ ลิน, เว่ยเหวิน หลิว, ซาตาดรู แพน, ศิวะ ชังการ์, วิสวานาถ ศิวะกุมาร์, ลินเปง ถัง และซานจีฟ กุมาร์ f4: ระบบจัดเก็บข้อมูล BLOB ที่อบอุ่นของ Facebook ใน การประชุมสัมมนา USENIX ครั้งที่ 11 เกี่ยวกับการออกแบบและการใช้งานระบบปฏิบัติการ (OSDI 14), หน้า 383–398, Broomfield, CO, ตุลาคม 2014. USENIX Association.
  3. โทมัส มิโคลอฟ, อิลยา ซัตสเคเวอร์, ไค เฉิน, เกร็ก เอส คอร์ราโด และเจฟฟ์ ดีน การนำเสนอคำและวลีแบบกระจายและการจัดองค์ประกอบ ใน C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani และ K. Q. Weinberger บรรณาธิการ ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท 26, หน้า 3111–3119. เคอร์แรน แอสโซซิเอทส์ อิงค์, 2013
  4. เซอร์เกย์ ไออฟเฟ และคริสเตียน เซเกดี การทำให้เป็นมาตรฐานแบบกลุ่ม: เร่งการฝึกอบรมเครือข่ายเชิงลึกโดยการลดการเปลี่ยนแปลงโควาเรียมภายใน ในฟรานซิส บาค และเดวิด ไบล บรรณาธิการ การประชุมนานาชาติเรื่อง Machine Learning ครั้งที่ 32, เล่ม 37 จาก การดำเนินการวิจัยการเรียนรู้ของเครื่อง, หน้า 448–456, ลีลล์, ฝรั่งเศส, 07–09 ก.ค. 2015 PMLR
  5. ลีโอ ไบรแมน. ป่าสุ่ม มัค เรียนรู้., 45(1):5–32, ตุลาคม 2001.
  6. ไทร์ นู พยู. การสำรวจเทคนิคการจำแนกประเภทในการทำเหมืองข้อมูล
  7. X. Shu, D. Yao และ E. Bertino การตรวจจับการเปิดเผยข้อมูลที่ละเอียดอ่อนโดยรักษาความเป็นส่วนตัว ธุรกรรม IEEE เกี่ยวกับนิติวิทยาศาสตร์ข้อมูลและความปลอดภัย, 10(5):1092–1103, 2015.
  8. เจหมิน หยาง, มิน หยาง, หยวน จาง, กัวเฟย กู่, เผิงหนิง และเสี่ยวหยาง หวาง Appintent: วิเคราะห์การส่งข้อมูลที่ละเอียดอ่อนใน Android เพื่อตรวจจับการรั่วไหลของความเป็นส่วนตัว หน้า 1043–1054, 11 2013
  9. ฉีเจ๋อเสีย, ซีหัง ได, เอดูอาร์ด เอช. โฮวี, มินห์ทังลือง และก๊วก วี. เลอ การเพิ่มข้อมูลที่ไม่ได้รับการดูแล

การจัดหมวดหมู่ข้อมูลที่ปรับขนาดได้เพื่อความปลอดภัยและความเป็นส่วนตัว
ค้นหารายละเอียดเกี่ยวกับวิธีการได้รับอาชีพที่เป็นที่ต้องการตั้งแต่เริ่มต้นหรือเลื่อนระดับในแง่ของทักษะและเงินเดือนโดยการเรียนหลักสูตรออนไลน์ SkillFactory:

หลักสูตรเพิ่มเติม

ที่มา: will.com

เพิ่มความคิดเห็น