MIT ลบคอลเลกชัน Tiny Images หลังจากระบุคำศัพท์ที่เหยียดเชื้อชาติและเกลียดผู้หญิง

สถาบันเทคโนโลยีแมสซาชูเซตส์ ลบแล้ว ชุดข้อมูล รูปภาพเล็กๆซึ่งมีคอลเลกชันภาพขนาด 80x32 ขนาดเล็กพร้อมคำอธิบายประกอบจำนวน 32 ล้านภาพ ชุดนี้ได้รับการดูแลโดยกลุ่มพัฒนาเทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์ และนักวิจัยหลายคนได้นำไปใช้ตั้งแต่ปี 2008 เพื่อฝึกอบรมและทดสอบการรู้จำวัตถุในระบบการเรียนรู้ของเครื่อง

เหตุผลในการถอดก็คือ การตรวจจับ การใช้คำเหยียดเชื้อชาติและเกลียดผู้หญิงในป้ายที่อธิบายวัตถุที่ปรากฎในภาพ รวมถึงการมีรูปภาพที่ถูกมองว่าเป็นการล่วงละเมิด ตัวอย่างเช่น มีภาพอวัยวะเพศที่มีคำสแลง ภาพผู้หญิงบางคนมีลักษณะเป็น "โสเภณี" และมีการใช้คำที่คนผิวดำและชาวเอเชียยอมรับไม่ได้ในสังคมสมัยใหม่

อย่างไรก็ตาม เอกสารที่ MIT อ้างถึงยังระบุถึงปัญหาที่ร้ายแรงกว่าในคอลเลกชันดังกล่าว: เทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์สามารถใช้เพื่อพัฒนาระบบจดจำใบหน้าเพื่อค้นหาตัวแทนของกลุ่มประชากรที่ถูกห้ามด้วยเหตุผลบางประการ โครงข่ายประสาทเทียมสำหรับการสร้างภาพสามารถสร้างต้นฉบับขึ้นใหม่จากข้อมูลที่ไม่เปิดเผยตัวตน

สาเหตุของการปรากฏตัวของคำที่ไม่ถูกต้องคือการใช้กระบวนการอัตโนมัติที่ใช้ความสัมพันธ์เชิงความหมายจากฐานข้อมูลคำศัพท์ภาษาอังกฤษเพื่อจำแนกประเภท WordNetสร้างขึ้นในช่วงทศวรรษ 1980 ที่มหาวิทยาลัยพรินซ์ตัน เนื่องจากไม่สามารถตรวจสอบภาษาที่ไม่เหมาะสมในรูปภาพขนาดเล็ก 80 ล้านภาพด้วยตนเองได้ จึงตัดสินใจบล็อกการเข้าถึงฐานข้อมูลโดยสมบูรณ์ MIT ยังเรียกร้องให้นักวิจัยคนอื่นๆ หยุดใช้คอลเลกชันนี้และลบสำเนาของมันออก ปัญหาที่คล้ายกันนี้พบได้ในฐานข้อมูลภาพที่มีคำอธิบายประกอบที่ใหญ่ที่สุด อิมเมจเน็ตซึ่งใช้จุดยึดจาก WordNet ด้วย

MIT ลบคอลเลกชัน Tiny Images หลังจากระบุคำศัพท์ที่เหยียดเชื้อชาติและเกลียดผู้หญิง

MIT ลบคอลเลกชัน Tiny Images หลังจากระบุคำศัพท์ที่เหยียดเชื้อชาติและเกลียดผู้หญิง

ที่มา: opennet.ru

เพิ่มความคิดเห็น