สถาบันเทคโนโลยีแมสซาชูเซตส์ ลบแล้ว ชุดข้อมูล รูปภาพเล็กๆซึ่งมีคอลเลกชันภาพขนาด 80x32 ขนาดเล็กพร้อมคำอธิบายประกอบจำนวน 32 ล้านภาพ ชุดนี้ได้รับการดูแลโดยกลุ่มพัฒนาเทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์ และนักวิจัยหลายคนได้นำไปใช้ตั้งแต่ปี 2008 เพื่อฝึกอบรมและทดสอบการรู้จำวัตถุในระบบการเรียนรู้ของเครื่อง
เหตุผลในการถอดก็คือ การตรวจจับ การใช้คำเหยียดเชื้อชาติและเกลียดผู้หญิงในป้ายที่อธิบายวัตถุที่ปรากฎในภาพ รวมถึงการมีรูปภาพที่ถูกมองว่าเป็นการล่วงละเมิด ตัวอย่างเช่น มีภาพอวัยวะเพศที่มีคำสแลง ภาพผู้หญิงบางคนมีลักษณะเป็น "โสเภณี" และมีการใช้คำที่คนผิวดำและชาวเอเชียยอมรับไม่ได้ในสังคมสมัยใหม่
อย่างไรก็ตาม เอกสารที่ MIT อ้างถึงยังระบุถึงปัญหาที่ร้ายแรงกว่าในคอลเลกชันดังกล่าว: เทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์สามารถใช้เพื่อพัฒนาระบบจดจำใบหน้าเพื่อค้นหาตัวแทนของกลุ่มประชากรที่ถูกห้ามด้วยเหตุผลบางประการ โครงข่ายประสาทเทียมสำหรับการสร้างภาพสามารถสร้างต้นฉบับขึ้นใหม่จากข้อมูลที่ไม่เปิดเผยตัวตน
สาเหตุของการปรากฏตัวของคำที่ไม่ถูกต้องคือการใช้กระบวนการอัตโนมัติที่ใช้ความสัมพันธ์เชิงความหมายจากฐานข้อมูลคำศัพท์ภาษาอังกฤษเพื่อจำแนกประเภท WordNetสร้างขึ้นในช่วงทศวรรษ 1980 ที่มหาวิทยาลัยพรินซ์ตัน เนื่องจากไม่สามารถตรวจสอบภาษาที่ไม่เหมาะสมในรูปภาพขนาดเล็ก 80 ล้านภาพด้วยตนเองได้ จึงตัดสินใจบล็อกการเข้าถึงฐานข้อมูลโดยสมบูรณ์ MIT ยังเรียกร้องให้นักวิจัยคนอื่นๆ หยุดใช้คอลเลกชันนี้และลบสำเนาของมันออก ปัญหาที่คล้ายกันนี้พบได้ในฐานข้อมูลภาพที่มีคำอธิบายประกอบที่ใหญ่ที่สุด อิมเมจเน็ตซึ่งใช้จุดยึดจาก WordNet ด้วย
ที่มา: opennet.ru