MIT odstránila zbierku Tiny Images po identifikácii rasistických a mizogýnnych výrazov

Massachusettský Inštitút Technológie vymazané súbor údajov Drobné obrázky, ktorá obsahuje anotovanú zbierku 80 miliónov malých obrázkov 32x32. Súpravu udržiavala skupina vyvíjajúca technológie počítačového videnia a od roku 2008 ju používajú rôzni výskumníci na trénovanie a testovanie rozpoznávania objektov v systémoch strojového učenia.

Dôvodom odstránenia bolo detekcia používanie rasistických a mizogýnnych výrazov v označení popisujúcich predmety zobrazené na obrázkoch, ako aj prítomnosť obrázkov, ktoré boli vnímané ako urážlivé. Boli tam napríklad obrázky genitálií so slangovými výrazmi, obrázky niektorých žien boli charakterizované ako „kurvy“ a používali sa výrazy, ktoré boli v modernej spoločnosti pre černochov a Ázijcov neprijateľné.

Dokument citovaný MIT však identifikuje aj vážnejšie problémy s takýmito zbierkami: technológie počítačového videnia možno použiť na vývoj systémov rozpoznávania tváre na vyhľadávanie predstaviteľov skupín obyvateľstva, ktoré sú z nejakého dôvodu zakázané; neurónová sieť na generovanie obrazu dokáže zrekonštruovať originál z anonymizovaných údajov.

Dôvodom výskytu neplatných slov bolo použitie automatizovaného procesu, ktorý na klasifikáciu používa sémantické vzťahy z anglickej lexikálnej databázy. WordNet, ktorý vznikol v 1980. rokoch minulého storočia na Princetonskej univerzite. Keďže v 80 miliónoch malých obrázkov nie je možné manuálne skontrolovať prítomnosť urážlivého jazyka, bolo rozhodnuté úplne zablokovať prístup do databázy. MIT tiež vyzval ostatných výskumníkov, aby prestali používať zbierku a odstránili jej kópie. Podobné problémy sú pozorované v najväčšej anotovanej databáze obrázkov ImageNet, ktorá tiež využíva kotvy z WordNetu.

MIT odstránila zbierku Tiny Images po identifikácii rasistických a mizogýnnych výrazov

MIT odstránila zbierku Tiny Images po identifikácii rasistických a mizogýnnych výrazov

Zdroj: opennet.ru

Pridať komentár