Instituto de Tecnologia de Massachusetts conjunto de dados , que compreende uma coleção anotada de 80 milhões de pequenas imagens com resolução de 32x32. O conjunto de dados foi mantido por um grupo que desenvolve tecnologias de visão computacional e tem sido usado desde 2008 por diversos pesquisadores para treinar e testar o reconhecimento de objetos em sistemas de aprendizado de máquina.
O motivo da remoção foi O uso de termos racistas e misóginos nas legendas que descrevem os objetos retratados nas imagens, bem como a presença de imagens consideradas ofensivas. Por exemplo, havia imagens de genitais com termos pejorativos, imagens de algumas mulheres descritas como "vadias" e termos para pessoas negras e asiáticas que são inaceitáveis na sociedade moderna.
No entanto, o documento citado pelo MIT também identifica problemas mais sérios com essas coleções: tecnologias de visão computacional podem ser usadas para desenvolver sistemas de reconhecimento facial para identificar membros de grupos que, de outra forma, seriam restritos; uma rede neural para geração de imagens pode reconstruir o original a partir de dados anonimizados.
O aparecimento de palavras inaceitáveis deveu-se à utilização de um processo automatizado que usa relações semânticas da base lexical inglesa para classificação. Criada na década de 1980 na Universidade de Princeton, a base de dados de imagens anotadas do MIT foi bloqueada devido à impossibilidade de verificar manualmente 80 milhões de pequenas imagens em busca de linguagem ofensiva. O MIT também solicitou que outros pesquisadores parassem de usar a coleção e removessem suas cópias. Problemas semelhantes foram observados na maior base de dados de imagens anotadas. , que também usa âncoras do WordNet.
Fonte: opennet.ru
