Amazon publica un conjunt de dades de comprensió de la parla en 51 idiomes

Amazon ha publicat sota una llicència CC BY 4.0 el conjunt de dades "MASSIVE" (Amazon SLURP multilingüe per a l'emplenament d'espais, la classificació d'intencions i l'avaluació de l'assistent virtual), models per a sistemes d'aprenentatge automàtic i eines per entrenar els vostres propis models que es poden utilitzar per comprendre informació sobre el llenguatge natural (NLU, Natural Language Understanding). El conjunt inclou més d'un milió d'enunciats de text anotats i classificats preparats per a 51 idiomes.

La col·lecció SLURP, disponible originalment per a l'anglès, es va utilitzar com a referència per construir el conjunt MASSIVE, que es va localitzar a 50 idiomes més mitjançant traductors professionals. La tecnologia de comprensió del llenguatge natural (NLU) d'Alexa primer converteix la parla en text i després aplica diversos models NLU al text que analitzen la presència de paraules clau per determinar l'essència de la pregunta de l'usuari.

Un dels objectius de la creació i publicació del conjunt és adaptar els assistents de veu per processar informació en diversos idiomes alhora, així com animar els desenvolupadors de tercers a crear aplicacions i serveis que ampliïn les capacitats dels assistents de veu. Per cridar l'atenció dels desenvolupadors, Amazon va llançar un concurs per crear el millor model genèric mitjançant un conjunt de dades publicat.

Actualment, els assistents de veu només admeten alguns idiomes i utilitzen models d'aprenentatge automàtic vinculats a un idioma específic. El projecte MASSIVE pretén eliminar aquesta mancança mitjançant la creació de models universals i sistemes d'aprenentatge automàtic capaços d'analitzar i processar informació en diferents idiomes.

Font: opennet.ru

Afegeix comentari