MIT forigis Tiny Images-kolekton post identigado de rasismaj kaj mizoginaj esprimoj

Masaĉuseca Instituto de Teknologio forigita datumaro Eta Bildoj, havante komentita kolekton de 80 milionoj da malgrandaj 32x32 bildoj. La aro estis konservita fare de grupo evoluiganta komputilajn teknologiojn kaj estis uzita ekde 2008 fare de diversaj esploristoj por trejni kaj testi objektrekonon en maŝinlernadsistemoj.

La kialo de forigo estis detekto la uzo de rasismaj kaj mizoginaj esprimoj en etikedoj priskribantaj la objektojn prezentitajn en la bildoj, same kiel la ĉeeston de bildoj kiuj estis perceptitaj kiel ofendaj. Ekzemple, ekzistis bildoj de genitaloj kun slangaj esprimoj, bildoj de kelkaj virinoj estis karakterizitaj kiel "putinoj", kaj esprimoj kiuj estis neakcepteblaj en moderna socio por nigruloj kaj azianoj estis uzitaj.

Tamen, la dokumento citita de MIT ankaŭ identigas pli gravajn problemojn kun tiaj kolektoj: komputilvidaj teknologioj povas esti uzataj por evoluigi vizaĝrekonajn sistemojn por serĉi reprezentantojn de loĝantargrupoj, kiuj estas ial malpermesitaj; neŭrala reto por bildgenerado povas rekonstrui la originalon de anonimigitaj datenoj.

La kialo de apero de nevalidaj vortoj estis la uzo de aŭtomatigita procezo kiu uzas semantikajn rilatojn de la angla leksika datumbazo por klasifiki. WordNet, kreita en la 1980-aj jaroj en Universitato Princeton. Ĉar ne eblas permane kontroli la ĉeeston de ofenda lingvo en 80 milionoj da malgrandaj bildoj, oni decidis tute bloki la aliron al la datumbazo. MIT ankaŭ instigis aliajn esploristojn ĉesi uzi la kolekton kaj forigi kopiojn de ĝi. Similaj problemoj estas observitaj en la plej granda komentita bilddatumbazo ImageNet, kiu ankaŭ uzas ankrojn de WordNet.

MIT forigis Tiny Images-kolekton post identigado de rasismaj kaj mizoginaj esprimoj

MIT forigis Tiny Images-kolekton post identigado de rasismaj kaj mizoginaj esprimoj

fonto: opennet.ru

Aldoni komenton