Մասաչուսեթսի տեխնոլոգիական ինստիտուտ տվյալների հավաքածու , որը ներառում է 80 միլիոն փոքր պատկերների ծանոթագրված հավաքածու՝ 32x32 լուծաչափով: Հավաքածուն պահպանվել է համակարգչային տեսողության տեխնոլոգիաներ մշակող խմբի կողմից և 2008 թվականից ի վեր օգտագործվել է տարբեր հետազոտողների կողմից՝ մեքենայական ուսուցման համակարգերում օբյեկտների ճանաչումը մարզելու և փորձարկելու համար:
Հեռացման պատճառն էր նկարներում պատկերված առարկաները նկարագրող պիտակներում ռասիստական և միասեռական տերմինների օգտագործումը, ինչպես նաև վիրավորական ընկալվող պատկերների առկայությունը: Օրինակ՝ կային սեռական օրգանների պատկերներ ժարգոնային տերմիններով, որոշ կանանց կերպարները բնութագրվում էին որպես «պոռնիկ», իսկ ժամանակակից հասարակության մեջ անընդունելի տերմիններ էին օգտագործվում սևամորթների և ասիացիների համար:
Այնուամենայնիվ, MIT-ի կողմից վկայակոչված փաստաթուղթը մատնանշում է նաև նման հավաքածուների հետ կապված ավելի լուրջ խնդիրներ. համակարգչային տեսողության տեխնոլոգիաները կարող են օգտագործվել դեմքի ճանաչման համակարգեր մշակելու համար՝ ինչ-ինչ պատճառներով արգելված բնակչության խմբերի ներկայացուցիչներ փնտրելու համար. Նեյրոնային ցանցը պատկերների ստեղծման համար կարող է վերակառուցել բնօրինակը անանուն տվյալներից:
Անվավեր բառերի ի հայտ գալու պատճառը ավտոմատացված գործընթացի օգտագործումն էր, որն օգտագործում է իմաստային հարաբերություններ անգլերենի բառարանային տվյալների բազայից դասակարգելու համար: , ստեղծվել է 1980-ականներին Փրինսթոնի համալսարանում: Քանի որ անհնար է ձեռքով ստուգել 80 միլիոն փոքր պատկերներում վիրավորական լեզվի առկայությունը, որոշվեց ամբողջությամբ փակել տվյալների բազայի հասանելիությունը: MIT-ը նաև կոչ արեց այլ հետազոտողներին դադարեցնել այս հավաքածուի օգտագործումը և հեռացնել դրա պատճենները: Նմանատիպ խնդիրներ են նկատվում նաև ամենամեծ մեկնաբանված պատկերների տվյալների բազայում: , որը նույնպես օգտագործում է խարիսխներ WordNet-ից:
Source: opennet.ru
