麻省理工学院在发现种族主义和厌恶女性的术语后删除了 Tiny Images 集合

麻省理工学院 删除 数据集 微小的图像,包含 80 万张 32x32 小图像的带注释集合。 该集由计算机视觉技术开发小组维护,自 2008 年以来一直被各种研究人员用来训练和测试机器学习系统中的对象识别。

删除的原因是 发现 在描述图片中所描绘物体的标签中使用种族主义和厌恶女性的术语,以及存在被视为冒犯性的图像。 例如,有带有俚语的生殖器图像,一些女性的图像被定性为“妓女”,以及使用了现代社会黑人和亚洲人无法接受的术语。

然而,麻省理工学院引用的文件也指出了此类藏品更严重的问题:计算机视觉技术可用于开发面部识别系统,以搜索因某种原因被禁止的人群的代表; 用于图像生成的神经网络可以从匿名数据重建原始图像。

出现无效单词的原因是使用了自动化过程,该过程使用英语词汇数据库中的语义关系进行分类 WordNet的,于 1980 世纪 80 年代在普林斯顿大学创建。 由于无法手动检查 XNUMX 万张小图片中是否存在攻击性语言,因此决定完全阻止对数据库的访问。 麻省理工学院还敦促其他研究人员停止使用该集合并删除其副本。 在最大的注释图像数据库中也观察到类似的问题 影像网,它也使用来自 WordNet 的锚点。

麻省理工学院在发现种族主义和厌恶女性的术语后删除了 Tiny Images 集合

麻省理工学院在发现种族主义和厌恶女性的术语后删除了 Tiny Images 集合

来源: opennet.ru

添加评论