Amazon publiceerde een dataset voor het begrijpen van spraak in 51 talen

Amazon heeft onder een CC BY 4.0-licentie de dataset "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), modellen voor machine learning-systemen en tools voor het trainen van uw eigen modellen gepubliceerd die kunnen worden gebruikt om informatie over natuurlijke taal begrijpen (NLU, Natural Language Understanding). De set bevat meer dan een miljoen geannoteerde en geclassificeerde tekstuitingen, voorbereid voor 51 talen.

De SLURP-collectie, oorspronkelijk beschikbaar voor het Engels, werd gebruikt als referentie voor het bouwen van de MASSIVE-set, die met behulp van professionele vertalers in 50 andere talen werd gelokaliseerd. Alexa's Natural Language Understanding (NLU)-technologie zet spraak eerst om in tekst en past vervolgens meerdere NLU-modellen toe op de tekst die de aanwezigheid van trefwoorden analyseren om de essentie van de vraag van de gebruiker te bepalen.

Een van de doelen van het maken en publiceren van de set is om stemassistenten aan te passen om informatie in meerdere talen tegelijk te verwerken, en om externe ontwikkelaars aan te moedigen applicaties en diensten te maken die de mogelijkheden van stemassistenten uitbreiden. Om de aandacht van ontwikkelaars te trekken, lanceerde Amazon een wedstrijd om het beste generieke model te creëren met behulp van een gepubliceerde dataset.

Momenteel ondersteunen stemassistenten slechts een paar talen en gebruiken ze machine learning-modellen die aan een specifieke taal zijn gekoppeld. Het MASSIVE-project heeft tot doel deze tekortkoming weg te nemen door universele modellen en machine learning-systemen te creëren die informatie in verschillende talen kunnen parseren en verwerken.

Bron: opennet.ru

Voeg een reactie