MIT poisti Tiny Images -kokoelman havaittuaan rasistisia ja misogynistisiä termejä

Massachusettsin Teknologian Instituutti poistettu tietojoukko Pienet kuvat, joka sisältää 80 miljoonan pienen 32x32 kuvan kokoelman. Settiä ylläpitää tietokonenäköteknologioita kehittävä ryhmä, ja eri tutkijat ovat käyttäneet sitä vuodesta 2008 lähtien koneoppimisjärjestelmien objektitunnistuksen kouluttamiseen ja testaamiseen.

Syy poistoon oli havaitseminen rasististen ja misogynististen termien käyttö kuvissa esitettyjä esineitä kuvaavissa etiketeissä sekä loukkaavina pidettyjen kuvien esiintyminen. Esimerkiksi sukupuolielimissä oli kuvia slangitermeillä, joidenkin naisten kuvia luonnehdittiin "huoriksi" ja termejä, joita ei voida hyväksyä nyky-yhteiskunnassa mustien ja aasialaisten kohdalla.

MIT:n mainitsemassa asiakirjassa tunnistetaan kuitenkin myös vakavampia ongelmia tällaisissa kokoelmissa: tietokonenäkötekniikoilla voidaan kehittää kasvojentunnistusjärjestelmiä jostain syystä kiellettyjen väestöryhmien edustajien etsimiseksi; hermoverkko kuvan luomista varten voi rekonstruoida alkuperäisen nimettömästä tiedosta.

Syy virheellisten sanojen esiintymiseen oli automatisoidun prosessin käyttö, joka käyttää englannin leksikaalisen tietokannan semanttisia suhteita luokitteluun. WordNet, luotu 1980-luvulla Princetonin yliopistossa. Koska 80 miljoonassa pienessä kuvassa ei ole mahdollista tarkistaa manuaalisesti loukkaavan kielen esiintymistä, päätettiin estää pääsy tietokantaan kokonaan. MIT kehotti myös muita tutkijoita lopettamaan kokoelman käytön ja poistamaan sen kopiot. Samanlaisia ​​ongelmia havaitaan suurimmassa kommentoidussa kuvatietokannassa IMAGEnet, joka käyttää myös WordNetin ankkureita.

MIT poisti Tiny Images -kokoelman havaittuaan rasistisia ja misogynistisiä termejä

MIT poisti Tiny Images -kokoelman havaittuaan rasistisia ja misogynistisiä termejä

Lähde: opennet.ru

Lisää kommentti