Massachusettsin Teknologian Instituutti tietojoukko , joka käsittää 80 miljoonan pienen kuvan annotoidun kokoelman, jonka resoluutio on 32x32. Aineistoa ylläpiti konenäköteknologioita kehittävä ryhmä, ja useat tutkijat ovat käyttäneet sitä vuodesta 2008 lähtien koneoppimisjärjestelmien objektien tunnistuksen kouluttamiseen ja testaamiseen.
Poiston syynä oli Kuvissa kuvattuja esineitä kuvaavissa tunnisteissa käytettiin rasistisia ja naisvihamielisiä termejä sekä loukkaaviksi koettuja kuvia. Esimerkiksi sukupuolielimiä esittävissä kuvissa oli slangisanoja, joitakin naisia kuvailtiin "lutkiksi" ja mustista ja aasialaisista käytettiin termejä, jotka eivät ole hyväksyttäviä nyky-yhteiskunnassa.
MIT:n mainitsemassa asiakirjassa tunnistetaan kuitenkin myös vakavampia ongelmia tällaisissa kokoelmissa: konenäköteknologioita voidaan käyttää kasvojentunnistusjärjestelmien kehittämiseen muuten rajoitettujen ryhmien jäsenten tunnistamiseksi; kuvia luova neuroverkko voi rekonstruoida alkuperäisen anonymisoidusta datasta.
Kelpaamattomien sanojen esiintymisen syynä oli automatisoidun prosessin käyttö, joka käyttää luokitteluun englannin kielen leksikaalisen tietokannan semanttisia suhteita. , joka luotiin 1980-luvulla Princetonin yliopistossa. Koska 80 miljoonan pienen kuvan manuaalinen tarkistaminen loukkaavan kielen varalta on mahdotonta, päätettiin estää pääsy tietokantaan kokonaan. MIT kehotti myös muita tutkijoita lopettamaan kokoelman käytön ja poistamaan sen kopiot. Samanlaisia ongelmia on havaittu suurimmassa kommentoidussa kuvatietokannassa. , joka käyttää myös WordNetin ankkureita.
Lähde: opennet.ru
