Institiúid Teicneolaíochta Massachusetts tacar sonraí , ina bhfuil bailiúchán anótáilte de 80 milliún íomhá beag 32x32. Grúpa a bhí ag forbairt teicneolaíochtaí fís ríomhaireachta a rinne an fhoireann a chothabháil agus tá sé in úsáid ó 2008 ag taighdeoirí éagsúla chun aithint réad a oiliúint agus a thástáil i gcórais mheaisínfhoghlama.
Ba é an chúis a bhí le baint úsáid a bhaint as téarmaí ciníochais agus míoigineacha i lipéid a chuireann síos ar na rudaí a léirítear sna pictiúir, chomh maith le láithreacht íomhánna a measadh a bheith maslach. Mar shampla, bhí íomhánna de baill ghiniúna le téarmaí slang, tréithríodh íomhánna de roinnt ban mar “fracach,” agus úsáideadh téarmaí nach raibh inghlactha sa tsochaí nua-aimseartha do dhubh agus d’Asianaigh.
Mar sin féin, sainaithnítear sa doiciméad a luaigh MIT fadhbanna níos tromchúisí le bailiúcháin dá leithéid: is féidir teicneolaíochtaí fís ríomhaire a úsáid chun córais aitheantais aghaidhe a fhorbairt chun cuardach a dhéanamh ar ionadaithe grúpaí daonra a bhfuil toirmeasc orthu ar chúis éigin; is féidir le líonra néarúil chun íomhá a ghiniúint an bunleagan a athchruthú ó shonraí anaithnide.
Ba í an chúis le cuma na bhfocal neamhbhailí ná úsáid a bhaint as próiseas uathoibrithe a úsáideann gaolmhaireachtaí séimeantacha ón mbunachar sonraí foclóireachta Béarla chun rangú , a cruthaíodh sna 1980í ag Ollscoil Princeton. Ós rud é nach féidir láithreacht teanga ionsaitheach a sheiceáil de láimh i 80 milliún pictiúr beag, socraíodh rochtain ar an mbunachar sonraí a bhlocáil go hiomlán. Spreag MIT taighdeoirí eile freisin gan úsáid a bhaint as an mbailiúchán agus cóipeanna a bhaint de. Breathnaítear fadhbanna cosúla sa bhunachar sonraí íomhánna anótáilte is mó , a úsáideann ancairí ó WordNet freisin.
Foinse: oscailtenet.ru
