Amazon ilichapisha mkusanyiko wa data wa kuelewa hotuba katika lugha 51

Amazon imechapisha chini ya leseni ya CC BY 4.0 seti ya data ya "MASSIVE" (Nyingi za Amazon SLURP ya Kujaza Slot, Uainishaji wa Kusudi, na Tathmini ya Msaidizi wa Virtual), miundo ya mifumo ya kujifunza mashine, na zana za kufunza miundo yako mwenyewe ambayo inaweza kutumika kuelewa habari juu ya lugha asilia (NLU, Uelewa wa Lugha Asilia). Seti hii inajumuisha zaidi ya matamshi milioni ya maandishi yaliyofafanuliwa na yaliyoainishwa yaliyotayarishwa kwa lugha 51.

Mkusanyiko wa SLURP, uliopatikana kwa Kiingereza hapo awali, ulitumika kama marejeleo ya kuunda seti ya MASSIVE, ambayo ilijanibishwa katika lugha zingine 50 kwa kutumia watafsiri wataalamu. Teknolojia ya Alexa ya uelewa wa lugha asilia (NLU) hubadilisha kwanza hotuba kuwa maandishi, kisha hutumia miundo mingi ya NLU kwenye maandishi ambayo huchanganua uwepo wa maneno muhimu ili kubainisha kiini cha swali la mtumiaji.

Moja ya malengo ya kuunda na kuchapisha seti ni kurekebisha wasaidizi wa sauti ili kuchakata habari katika lugha kadhaa mara moja, na pia kuhimiza watengenezaji wa watu wengine kuunda programu na huduma zinazopanua uwezo wa wasaidizi wa sauti. Ili kuvutia usikivu wa watengenezaji, Amazon ilizindua shindano la kuunda modeli bora zaidi kwa kutumia hifadhidata iliyochapishwa.

Hivi sasa, wasaidizi wa sauti hutumia lugha chache tu na hutumia miundo ya kujifunza kwa mashine iliyounganishwa na lugha mahususi. Mradi wa MASSIVE unalenga kuondoa kasoro hii kwa kuunda miundo ya ulimwengu wote na mifumo ya kujifunza kwa mashine yenye uwezo wa kuchanganua na kuchakata taarifa katika lugha tofauti.

Chanzo: opennet.ru

Kuongeza maoni