Amazon publiserte et datasett for å forstå tale på 51 språk

Amazon har publisert under en CC BY 4.0-lisens "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation) datasettet, modeller for maskinlæringssystemer og verktøy for opplæring av dine egne modeller som kan brukes til å forstå informasjon om naturlig språk (NLU, Natural Language Understanding). Settet inneholder mer enn en million kommenterte og klassifiserte tekstytringer utarbeidet for 51 språk.

SLURP-samlingen, opprinnelig tilgjengelig for engelsk, ble brukt som referanse for å bygge MASSIVE-settet, som ble lokalisert til 50 andre språk ved hjelp av profesjonelle oversettere. Alexas teknologi for naturlig språkforståelse (NLU) konverterer først tale til tekst, og bruker deretter flere NLU-modeller på teksten som analyserer tilstedeværelsen av nøkkelord for å bestemme essensen av brukerens spørsmål.

Et av målene med å lage og publisere settet er å tilpasse taleassistenter til å behandle informasjon på flere språk samtidig, samt å oppmuntre tredjepartsutviklere til å lage applikasjoner og tjenester som utvider funksjonene til taleassistenter. For å tiltrekke seg utviklernes oppmerksomhet lanserte Amazon en konkurranse for å lage den beste generiske modellen ved å bruke et publisert datasett.

Foreløpig støtter stemmeassistenter bare noen få språk og bruker maskinlæringsmodeller knyttet til et spesifikt språk. MASSIVE-prosjektet tar sikte på å eliminere denne mangelen ved å lage universelle modeller og maskinlæringssystemer som er i stand til å analysere og behandle informasjon på forskjellige språk.

Kilde: opennet.ru

Legg til en kommentar