قام معهد ماساتشوستس للتكنولوجيا بإزالة مجموعة Tiny Images بعد تحديد المصطلحات العنصرية والمعادية للنساء

معهد ماساتشوستس للتكنولوجيا تم الحذف مجموعة البيانات صور صغيرة، ويضم مجموعة مشروحة مكونة من 80 مليون صورة صغيرة مقاس 32 × 32. تمت صيانة المجموعة من قبل مجموعة تعمل على تطوير تقنيات رؤية الكمبيوتر، وقد تم استخدامها منذ عام 2008 من قبل العديد من الباحثين لتدريب واختبار التعرف على الأشياء في أنظمة التعلم الآلي.

وكان سبب الإزالة كشف استخدام مصطلحات عنصرية ومعادية للنساء في الملصقات التي تصف الأشياء التي تظهر في الصور، بالإضافة إلى وجود صور يُنظر إليها على أنها مسيئة. على سبيل المثال، كانت هناك صور للأعضاء التناسلية بمصطلحات عامية، وتم وصف صور بعض النساء على أنهن "عاهرات"، وتم استخدام مصطلحات غير مقبولة في المجتمع الحديث بالنسبة للسود والآسيويين.

ومع ذلك، فإن الوثيقة التي استشهد بها معهد ماساتشوستس للتكنولوجيا تحدد أيضًا مشاكل أكثر خطورة في مثل هذه المجموعات: يمكن استخدام تقنيات الرؤية الحاسوبية لتطوير أنظمة التعرف على الوجه للبحث عن ممثلي المجموعات السكانية المحظورة لسبب ما؛ يمكن للشبكة العصبية لتوليد الصور إعادة بناء النسخة الأصلية من البيانات مجهولة المصدر.

وكان سبب ظهور الكلمات غير الصالحة هو استخدام عملية آلية تستخدم العلاقات الدلالية من قاعدة البيانات المعجمية الإنجليزية لتصنيفها WordNetتم إنشاؤه في الثمانينات في جامعة برينستون. نظرًا لأنه لا يمكن التحقق يدويًا من وجود لغة مسيئة في 1980 مليون صورة صغيرة، فقد تقرر حظر الوصول إلى قاعدة البيانات تمامًا. كما حث معهد ماساتشوستس للتكنولوجيا الباحثين الآخرين على التوقف عن استخدام المجموعة وإزالة نسخ منها. وقد لوحظت مشاكل مماثلة في أكبر قاعدة بيانات للصور المشروحة IMAGEnet، والذي يستخدم أيضًا نقاط ارتساء من WordNet.

قام معهد ماساتشوستس للتكنولوجيا بإزالة مجموعة Tiny Images بعد تحديد المصطلحات العنصرية والمعادية للنساء

قام معهد ماساتشوستس للتكنولوجيا بإزالة مجموعة Tiny Images بعد تحديد المصطلحات العنصرية والمعادية للنساء

المصدر: opennet.ru

إضافة تعليق