麻省理工學院在發現種族主義和厭惡女性的術語後刪除了 Tiny Images 集合

麻省理工學院 已刪除 數據集 微小的影像,包含 80 萬張 32x32 小圖像的註釋集合。 該集由電腦視覺技術開發小組維護,自 2008 年以來一直被各種研究人員用來訓練和測試機器學習系統中的物件識別。

刪除的原因是 檢測 在描述圖片中所描繪物體的標籤中使用種族主義和厭惡女性的術語,以及存在被視為冒犯性的圖像。 例如,有帶有俚語的生殖器圖像,一些女性的圖像被定性為“妓女”,以及使用了現代社會黑人和亞洲人無法接受的術語。

然而,麻省理工學院引用的文件也指出了此類藏品更嚴重的問題:電腦視覺技術可用於開發臉部辨識系統,以搜尋因某種原因被禁止的人群的代表; 用於影像生成的神經網路可以從匿名資料重建原始影像。

出現無效單字的原因是使用了自動化過程,該過程使用英語詞彙資料庫中的語義關係進行分類 共發現,於 1980 世紀 80 年代在普林斯頓大學創立。 由於無法手動檢查 XNUMX 萬張小圖片中是否存在攻擊性語言,因此決定完全阻止對資料庫的存取。 麻省理工學院也敦促其他研究人員停止使用該集合並刪除其副本。 在最大的註釋圖像資料庫中也觀察到類似的問題 影像網,它也使用來自 WordNet 的錨點。

麻省理工學院在發現種族主義和厭惡女性的術語後刪除了 Tiny Images 集合

麻省理工學院在發現種族主義和厭惡女性的術語後刪除了 Tiny Images 集合

來源: opennet.ru

添加評論