MIT జాత్యహంకార మరియు స్త్రీద్వేషపూరిత పదాలను గుర్తించిన తర్వాత చిన్న చిత్రాల సేకరణను తొలగించింది

మాస్సాచుసెట్స్కీ టెక్నిక్ ఇన్స్టిట్యూట్ తొలగించబడింది డేటా సెట్ చిన్న చిత్రాలు, 80 మిలియన్ల చిన్న 32x32 చిత్రాల ఉల్లేఖన సేకరణను కలిగి ఉంది. ఈ సెట్‌ను కంప్యూటర్ విజన్ టెక్నాలజీలను అభివృద్ధి చేస్తున్న సమూహం నిర్వహించింది మరియు మెషిన్ లెర్నింగ్ సిస్టమ్‌లలో ఆబ్జెక్ట్ రికగ్నిషన్‌ను శిక్షణ మరియు పరీక్షించడానికి వివిధ పరిశోధకులు 2008 నుండి ఉపయోగిస్తున్నారు.

తొలగించడానికి కారణం గుర్తింపు చిత్రాలలో చిత్రీకరించబడిన వస్తువులను వివరించే లేబుల్‌లలో జాత్యహంకార మరియు స్త్రీద్వేషపూరిత పదాలను ఉపయోగించడం, అలాగే అభ్యంతరకరమైనదిగా భావించిన చిత్రాల ఉనికి. ఉదాహరణకు, యాస పదాలతో జననేంద్రియాల చిత్రాలు ఉన్నాయి, కొంతమంది మహిళల చిత్రాలు "వేశ్యలు"గా వర్గీకరించబడ్డాయి మరియు నల్లజాతీయులు మరియు ఆసియన్లకు ఆధునిక సమాజంలో ఆమోదయోగ్యం కాని పదాలు ఉపయోగించబడ్డాయి.

అయినప్పటికీ, MIT ఉదహరించిన పత్రం అటువంటి సేకరణలతో మరింత తీవ్రమైన సమస్యలను కూడా గుర్తిస్తుంది: కొన్ని కారణాల వల్ల నిషేధించబడిన జనాభా సమూహాల ప్రతినిధుల కోసం శోధించడానికి ముఖ గుర్తింపు వ్యవస్థలను అభివృద్ధి చేయడానికి కంప్యూటర్ విజన్ టెక్నాలజీలను ఉపయోగించవచ్చు; ఇమేజ్ జనరేషన్ కోసం ఒక న్యూరల్ నెట్‌వర్క్ అనామక డేటా నుండి అసలైనదాన్ని పునర్నిర్మించగలదు.

చెల్లని పదాలు కనిపించడానికి కారణం, వర్గీకరించడానికి ఇంగ్లీష్ లెక్సికల్ డేటాబేస్ నుండి అర్థ సంబంధాలను ఉపయోగించే స్వయంచాలక ప్రక్రియను ఉపయోగించడం. వర్డ్నెట్, ప్రిన్స్‌టన్ విశ్వవిద్యాలయంలో 1980లలో సృష్టించబడింది. 80 మిలియన్ల చిన్న చిత్రాలలో అభ్యంతరకరమైన భాష ఉనికిని మాన్యువల్‌గా తనిఖీ చేయడం సాధ్యం కాదు కాబట్టి, డేటాబేస్‌కు ప్రాప్యతను పూర్తిగా నిరోధించాలని నిర్ణయించారు. MIT ఇతర పరిశోధకులను సేకరణను ఉపయోగించడం మానేసి, దాని కాపీలను తీసివేయమని కూడా కోరింది. అతిపెద్ద ఉల్లేఖన చిత్ర డేటాబేస్‌లో ఇలాంటి సమస్యలు గమనించబడ్డాయి IMAGEnet, ఇది WordNet నుండి యాంకర్లను కూడా ఉపయోగిస్తుంది.

MIT జాత్యహంకార మరియు స్త్రీద్వేషపూరిత పదాలను గుర్తించిన తర్వాత చిన్న చిత్రాల సేకరణను తొలగించింది

MIT జాత్యహంకార మరియు స్త్రీద్వేషపూరిత పదాలను గుర్తించిన తర్వాత చిన్న చిత్రాల సేకరణను తొలగించింది

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి