Amazon je objavil nabor podatkov za razumevanje govora v 51 jezikih

Amazon je pod licenco CC BY 4.0 objavil nabor podatkov »MASSIVE« (večjezični Amazon SLURP za zapolnjevanje rež, klasifikacijo namena in vrednotenje virtualnega pomočnika), modele za sisteme strojnega učenja in orodja za usposabljanje lastnih modelov, ki jih je mogoče uporabiti za razumeti informacije o naravnem jeziku (NLU, Natural Language Understanding). Komplet vključuje več kot milijon komentiranih in razvrščenih besedilnih izjav, pripravljenih za 51 jezikov.

Zbirka SLURP, ki je bila prvotno na voljo za angleščino, je bila uporabljena kot referenca za izdelavo nabora MASSIVE, ki je bil s profesionalnimi prevajalci lokaliziran v 50 drugih jezikov. Alexa tehnologija razumevanja naravnega jezika (NLU) najprej pretvori govor v besedilo, nato pa na besedilo uporabi več modelov NLU, ki analizirajo prisotnost ključnih besed, da ugotovijo bistvo uporabnikovega vprašanja.

Eden od ciljev ustvarjanja in objave nabora je prilagoditi glasovne pomočnike za obdelavo informacij v več jezikih hkrati, pa tudi spodbuditi razvijalce tretjih oseb k ustvarjanju aplikacij in storitev, ki širijo zmogljivosti glasovnih pomočnikov. Da bi pritegnil pozornost razvijalcev, je Amazon sprožil tekmovanje za ustvarjanje najboljšega generičnega modela z uporabo objavljenega nabora podatkov.

Trenutno glasovni pomočniki podpirajo le nekaj jezikov in uporabljajo modele strojnega učenja, vezane na določen jezik. Projekt MASSIVE želi odpraviti to pomanjkljivost z ustvarjanjem univerzalnih modelov in sistemov za strojno učenje, ki so sposobni razčleniti in obdelati informacije v različnih jezikih.

Vir: opennet.ru

Dodaj komentar