Le MIT a supprimé la collection Tiny Images après avoir identifié des termes racistes et misogynes

Institut de technologie du Massachusetts supprimé base de données Petites images, présentant une collection annotée de 80 millions de petites images 32x32. L'ensemble a été maintenu par un groupe développant des technologies de vision par ordinateur et est utilisé depuis 2008 par divers chercheurs pour entraîner et tester la reconnaissance d'objets dans les systèmes d'apprentissage automatique.

La raison du retrait était révélateur l'utilisation de termes racistes et misogynes dans les étiquettes décrivant les objets représentés sur les images, ainsi que la présence d'images perçues comme offensantes. Par exemple, il y avait des images de parties génitales avec des termes d'argot, des images de certaines femmes étaient qualifiées de « putes » et des termes inacceptables dans la société moderne pour les Noirs et les Asiatiques étaient utilisés.

Cependant, le document cité par le MIT identifie également des problèmes plus graves avec de telles collections : les technologies de vision par ordinateur peuvent être utilisées pour développer des systèmes de reconnaissance faciale afin de rechercher des représentants de groupes de population interdits pour une raison quelconque ; un réseau neuronal pour la génération d'images peut reconstruire l'original à partir de données anonymisées.

La raison de l'apparition de mots invalides était l'utilisation d'un processus automatisé qui utilise les relations sémantiques de la base de données lexicale anglaise pour classer WordNet, créé dans les années 1980 à l’Université de Princeton. Puisqu'il n'est pas possible de vérifier manuellement la présence de langage offensant dans 80 millions de petites images, il a été décidé de bloquer complètement l'accès à la base de données. Le MIT a également exhorté les autres chercheurs à cesser d’utiliser la collection et à en supprimer les copies. Des problèmes similaires sont observés dans la plus grande base de données d'images annotées ImageNet, qui utilise également les ancres de WordNet.

Le MIT a supprimé la collection Tiny Images après avoir identifié des termes racistes et misogynes

Le MIT a supprimé la collection Tiny Images après avoir identifié des termes racistes et misogynes

Source: opennet.ru

Ajouter un commentaire