MITは人種差別的および女性蔑視的な用語を特定した後、Tiny Imagesコレクションを削除しました

マサチューセッツ工科大学 削除されました データセット 小さな画像、80 万枚の小さな 32x32 画像の注釈付きコレクションを特徴としています。 このセットは、コンピューター ビジョン テクノロジーを開発するグループによって維持されており、2008 年以来、機械学習システムにおけるオブジェクト認識のトレーニングとテストのためにさまざまな研究者によって使用されています。

削除の理由は、 識別 写真に描かれている物体を説明するラベルにおける人種差別的および女性蔑視的な用語の使用、および攻撃的であると認識される画像の存在。 たとえば、性器の画像に俗語が含まれたり、一部の女性の画像が「売春婦」として特徴づけられたり、黒人やアジア人にとって現代社会では受け入れられない用語が使用されたりしました。

しかし、MIT が引用した文書では、そのようなコレクションに関するより深刻な問題も特定しています。コンピュータ ビジョン テクノロジは、何らかの理由で禁止されている集団グループの代表者を検索する顔認識システムの開発に使用される可能性があります。 画像生成用のニューラル ネットワークは、匿名化されたデータからオリジナルを再構築できます。

無効な単語が出現した理由は、英語語彙データベースの意味関係を使用して分類する自動プロセスを使用したためです。 WordNet、1980年代にプリンストン大学で作成されました。 80万枚の小さな写真に不快な言葉が含まれているかどうかを手動で確認することは不可能であるため、データベースへのアクセスを完全にブロックすることが決定されました。 MITはまた、他の研究者に対し、コレクションの使用を中止し、そのコピーを削除するよう呼び掛けた。 最大の注釈付き画像データベースでも同様の問題が観察されています ImageNet、これも WordNet のアンカーを使用します。

MITは人種差別的および女性蔑視的な用語を特定した後、Tiny Imagesコレクションを削除しました

MITは人種差別的および女性蔑視的な用語を特定した後、Tiny Imagesコレクションを削除しました

出所: オープンネット.ru

コメントを追加します