Sefydliad Technoleg Massachusetts set ddata , yn cynnwys casgliad wedi'i anodi o 80 miliwn o ddelweddau bach gyda datrysiad o 32x32. Cynhaliwyd y set ddata gan grŵp a oedd yn datblygu technolegau gweledigaeth gyfrifiadurol ac mae wedi cael ei defnyddio ers 2008 gan amrywiol ymchwilwyr i hyfforddi a phrofi adnabod gwrthrychau mewn systemau dysgu peirianyddol.
Y rheswm dros y symud oedd Defnyddio termau hiliol a misogynistaidd yn y tagiau sy'n disgrifio'r gwrthrychau a ddarlunnir yn y delweddau, yn ogystal â phresenoldeb delweddau a ystyrid yn sarhaus. Er enghraifft, roedd delweddau o organau cenhedlu gyda thermau slang, disgrifiwyd delweddau o rai menywod fel "puteiniaid," a defnyddiwyd termau ar gyfer pobl Dduon ac Asiaidd sy'n annerbyniol mewn cymdeithas fodern.
Fodd bynnag, mae'r ddogfen a ddyfynnwyd gan MIT hefyd yn nodi problemau mwy difrifol gyda chasgliadau o'r fath: gellir defnyddio technolegau gweledigaeth gyfrifiadurol i ddatblygu systemau adnabod wynebau i adnabod aelodau o grwpiau sydd fel arall yn gyfyngedig; gall rhwydwaith niwral ar gyfer cynhyrchu delweddau ail-greu'r gwreiddiol o ddata dienw.
Y rheswm dros ymddangosiad geiriau annerbyniol oedd y defnydd o broses awtomataidd sy'n defnyddio perthnasoedd semantig o'r gronfa ddata eiriadurol Saesneg ar gyfer dosbarthu. , a grëwyd yn y 1980au ym Mhrifysgol Princeton. Gan fod gwirio 80 miliwn o ddelweddau bach â llaw am iaith dramgwyddus yn amhosibl, gwnaed y penderfyniad i rwystro mynediad i'r gronfa ddata yn llwyr. Galwodd MIT hefyd ar ymchwilwyr eraill i roi'r gorau i ddefnyddio'r casgliad a chael gwared ar ei gopïau. Mae problemau tebyg wedi'u harsylwi yn y gronfa ddata delweddau anodiedig fwyaf. , sydd hefyd yn defnyddio angorau o WordNet.
Ffynhonnell: opennet.ru
