MIT verwijderde de Tiny Images-collectie na het identificeren van racistische en vrouwonvriendelijke termen

Massachusetts Institute of Technology verwijderd dataset Kleine afbeeldingen, met een geannoteerde verzameling van 80 miljoen kleine 32x32 afbeeldingen. De set werd onderhouden door een groep die computervisietechnologieën ontwikkelde en wordt sinds 2008 door verschillende onderzoekers gebruikt om objectherkenning in machine learning-systemen te trainen en te testen.

De reden van verwijdering was detectie het gebruik van racistische en vrouwonvriendelijke termen in labels die de objecten beschrijven die op de afbeeldingen zijn afgebeeld, evenals de aanwezigheid van afbeeldingen die als aanstootgevend werden ervaren. Er waren bijvoorbeeld afbeeldingen van geslachtsdelen met jargontermen, afbeeldingen van sommige vrouwen werden gekarakteriseerd als ‘hoeren’ en er werden termen gebruikt die in de moderne samenleving onaanvaardbaar waren voor zwarten en Aziaten.

Het door MIT aangehaalde document signaleert echter ook ernstiger problemen met dergelijke collecties: computer vision-technologieën kunnen worden gebruikt om gezichtsherkenningssystemen te ontwikkelen om te zoeken naar vertegenwoordigers van bevolkingsgroepen die om de een of andere reden verboden zijn; een neuraal netwerk voor het genereren van afbeeldingen kan het origineel reconstrueren op basis van geanonimiseerde gegevens.

De reden voor het verschijnen van ongeldige woorden was het gebruik van een geautomatiseerd proces dat semantische relaties uit de Engelse lexicale database gebruikt om woorden te classificeren WordNet, opgericht in de jaren tachtig aan de Princeton University. Omdat het niet mogelijk is om handmatig de aanwezigheid van aanstootgevend taalgebruik in 1980 miljoen kleine afbeeldingen te controleren, werd besloten de toegang tot de database volledig te blokkeren. MIT drong er ook bij andere onderzoekers op aan om te stoppen met het gebruik van de collectie en kopieën ervan te verwijderen. Soortgelijke problemen worden waargenomen in de grootste database met geannoteerde afbeeldingen IMAGEnet, dat ook ankers van WordNet gebruikt.

MIT verwijderde de Tiny Images-collectie na het identificeren van racistische en vrouwonvriendelijke termen

MIT verwijderde de Tiny Images-collectie na het identificeren van racistische en vrouwonvriendelijke termen

Bron: opennet.ru

Voeg een reactie