MIT tog bort Tiny Images-samlingen efter att ha identifierat rasistiska och kvinnofientliga termer

Massachusetts Institute of Technology raderade datauppsättning Små bilder, med en kommenterad samling av 80 miljoner små 32x32 bilder. Uppsättningen sköttes av en grupp som utvecklar datorseendeteknologier och har använts sedan 2008 av olika forskare för att träna och testa objektigenkänning i maskininlärningssystem.

Anledningen till borttagningen var upptäckt användningen av rasistiska och kvinnofientliga termer i etiketter som beskriver de föremål som avbildas på bilderna, samt förekomsten av bilder som uppfattades som stötande. Till exempel fanns bilder av könsorgan med slangtermer, bilder av vissa kvinnor karakteriserades som "horor" och termer som var oacceptabla i det moderna samhället för svarta och asiater användes.

Men dokumentet som citeras av MIT identifierar också allvarligare problem med sådana samlingar: datorseendeteknik kan användas för att utveckla ansiktsigenkänningssystem för att söka efter representanter för befolkningsgrupper som är förbjudna av någon anledning; ett neuralt nätverk för bildgenerering kan rekonstruera originalet från anonymiserade data.

Anledningen till uppkomsten av ogiltiga ord var användningen av en automatiserad process som använder semantiska relationer från den engelska lexikaliska databasen för att klassificera WordNet, skapad på 1980-talet vid Princeton University. Eftersom det inte är möjligt att manuellt kontrollera förekomsten av stötande språk i 80 miljoner små bilder, beslutades det att helt blockera åtkomsten till databasen. MIT uppmanade också andra forskare att sluta använda samlingen och ta bort kopior av den. Liknande problem observeras i den största kommenterade bilddatabasen IMAGEnet, som också använder ankare från WordNet.

MIT tog bort Tiny Images-samlingen efter att ha identifierat rasistiska och kvinnofientliga termer

MIT tog bort Tiny Images-samlingen efter att ha identifierat rasistiska och kvinnofientliga termer

Källa: opennet.ru

Lägg en kommentar