MIT uklanja kolekciju Tiny Images zbog rasističkih i mizoginih izraza

Masačusetskij tehnološki institut izbrisano skup podataka Sitne slike, s označenom zbirkom od 80 milijuna malih slika 32x32. Skup je održavala grupa koja razvija tehnologije računalnog vida, a od 2008. ga koriste različiti istraživači za obuku i testiranje prepoznavanja objekata u sustavima strojnog učenja.

Razlog uklanjanja bio je otkrivanje korištenje rasističkih i mizoginih izraza u oznakama koje opisuju objekte prikazane na slikama, kao i prisutnost slika koje su percipirane kao uvredljive. Na primjer, bilo je slika genitalija sa žargonskim izrazima, slike nekih žena okarakterizirane su kao “kurve”, a koristili su se i izrazi koji su u modernom društvu neprihvatljivi za crnce i Azijate.

Međutim, dokument na koji se poziva MIT identificira i ozbiljnije probleme s takvim zbirkama: tehnologije računalnog vida mogu se koristiti za razvoj sustava za prepoznavanje lica za traženje predstavnika populacijskih skupina koje su iz nekog razloga zabranjene; neuronska mreža za generiranje slike može rekonstruirati original iz anonimiziranih podataka.

Razlog za pojavu nevažećih riječi bila je uporaba automatiziranog procesa koji koristi semantičke odnose iz engleske leksičke baze podataka za klasifikaciju WordNet, nastao 1980-ih na Sveučilištu Princeton. Budući da nije moguće ručno provjeriti prisutnost uvredljivog jezika u 80 milijuna malih slika, odlučeno je potpuno blokirati pristup bazi podataka. MIT je također pozvao druge istraživače da prestanu koristiti zbirku i uklone njezine kopije. Slični problemi uočeni su u najvećoj bazi podataka s označenim slikama ImageNet, koji također koristi sidra iz WordNeta.

MIT uklanja kolekciju Tiny Images zbog rasističkih i mizoginih izraza

MIT uklanja kolekciju Tiny Images zbog rasističkih i mizoginih izraza

Izvor: opennet.ru

Dodajte komentar