Amazon publicerade en datauppsättning för att förstå tal på 51 språk

Amazon har under en CC BY 4.0-licens publicerat datasetet "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), modeller för maskininlärningssystem och verktyg för att träna dina egna modeller som kan användas för att förstå information om naturligt språk (NLU, Natural Language Understanding). Uppsättningen innehåller mer än en miljon kommenterade och sekretessbelagda textyttringar förberedda för 51 språk.

SLURP-samlingen, som ursprungligen var tillgänglig för engelska, användes som referens för att bygga MASSIVE-setet, som lokaliserades till 50 andra språk med hjälp av professionella översättare. Alexas teknik för naturlig språkförståelse (NLU) konverterar först tal till text, och applicerar sedan flera NLU-modeller på texten som analyserar förekomsten av nyckelord för att avgöra kärnan i användarens fråga.

Ett av målen med att skapa och publicera uppsättningen är att anpassa röstassistenter för att bearbeta information på flera språk samtidigt, samt att uppmuntra tredjepartsutvecklare att skapa applikationer och tjänster som utökar kapaciteten hos röstassistenter. För att fånga utvecklarnas uppmärksamhet lanserade Amazon en tävling för att skapa den bästa generiska modellen med hjälp av en publicerad datauppsättning.

För närvarande stöder röstassistenter endast ett fåtal språk och använder maskininlärningsmodeller kopplade till ett specifikt språk. MASSIVE-projektet syftar till att eliminera denna brist genom att skapa universella modeller och maskininlärningssystem som kan analysera och bearbeta information på olika språk.

Källa: opennet.ru

Lägg en kommentar