Amazon publisearre in dataset foar it ferstean fan spraak yn 51 talen

Amazon hat ûnder in CC BY 4.0-lisinsje de dataset "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation) publisearre, modellen foar masine-learsystemen, en ark foar it oplieden fan jo eigen modellen dy't kinne wurde brûkt om begryp ynformaasje oer natuerlike taal (NLU, Natural Language Understanding). De set omfettet mear as in miljoen annotearre en klassifisearre tekstútspraken taret foar 51 talen.

De SLURP-kolleksje, oarspronklik beskikber foar Ingelsk, waard brûkt as referinsje foar it bouwen fan 'e MASSIVE-set, dy't waard pleatst yn 50 oare talen mei help fan profesjonele oersetters. Alexa's technology foar natuerlik taalbegrip (NLU) konvertearret earst spraak yn tekst, en tapast dan meardere NLU-modellen op 'e tekst dy't de oanwêzigens fan kaaiwurden analysearje om de essinsje fan 'e fraach fan 'e brûker te bepalen.

Ien fan 'e doelen fan it meitsjen en publisearjen fan' e set is om stimassistenten oan te passen om ynformaasje yn ferskate talen tagelyk te ferwurkjen, en ek ûntwikkelders fan tredden oan te moedigjen om applikaasjes en tsjinsten te meitsjen dy't de mooglikheden fan stimassistenten útwreidzje. Om de oandacht fan ûntwikkelders te lûken, lansearre Amazon in konkurrinsje om it bêste generike model te meitsjen mei in publisearre dataset.

Op it stuit stypje stimassistenten mar in pear talen en brûke masinelearmodellen ferbûn oan in spesifike taal. It MASSIVE-projekt hat as doel dit tekoart te eliminearjen troch universele modellen en masine-learsystemen te meitsjen dy't yn steat binne om ynformaasje yn ferskate talen te parsearjen en te ferwurkjen.

Boarne: opennet.ru

Add a comment