Amazon udgiver taleforståelsesdatasæt på 51 sprog

Amazon har under en CC BY 4.0-licens udgivet datasættet "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), modeller til maskinlæringssystemer og værktøjer til træning af dine egne modeller, som kan bruges til at forstå information om naturligt sprog (NLU, Natural Language Understanding). Sættet indeholder mere end en million kommenterede og klassificerede tekstytringer udarbejdet til 51 sprog.

SLURP-samlingen, der oprindeligt var tilgængelig på engelsk, blev brugt som reference til at bygge MASSIVE-sættet, som blev lokaliseret til 50 andre sprog ved hjælp af professionelle oversættere. Alexas teknologi til naturlig sprogforståelse (NLU) konverterer først tale til tekst og anvender derefter flere NLU-modeller på teksten, der analyserer tilstedeværelsen af ​​nøgleord for at bestemme essensen af ​​brugerens spørgsmål.

Et af målene med at skabe og udgive sættet er at tilpasse stemmeassistenter til at behandle information på flere sprog på én gang, samt at opmuntre tredjepartsudviklere til at skabe applikationer og tjenester, der udvider stemmeassistenternes muligheder. For at tiltrække udviklernes opmærksomhed lancerede Amazon en konkurrence for at skabe den bedste generiske model ved hjælp af et offentliggjort datasæt.

I øjeblikket understøtter stemmeassistenter kun nogle få sprog og bruger maskinlæringsmodeller knyttet til et bestemt sprog. MASSIVE-projektet har til formål at eliminere denne mangel ved at skabe universelle modeller og maskinlæringssystemer, der er i stand til at analysere og behandle information på forskellige sprog.

Kilde: opennet.ru

Tilføj en kommentar