Az Amazon közzétett egy adatkészletet a beszéd megértéséhez 51 nyelven

Az Amazon CC BY 4.0 licenc alatt tette közzé a "MASSIVE" (Többnyelvű Amazon SLURP for Slot Filling, Intent Classification és Virtual-Assistant Evaluation) adatkészletet, a gépi tanulási rendszerek modelljeit és a saját modelljei betanításához használható eszközöket. megérteni a természetes nyelvre vonatkozó információkat (NLU, Natural Language Understanding). A készletben több mint egymillió megjegyzéssel ellátott és minősített szöveges megnyilatkozás található 51 nyelvre.

Az eredetileg angol nyelven elérhető SLURP gyűjtemény referenciaként szolgált a MASSIVE készlet felépítéséhez, amelyet professzionális fordítók segítségével 50 másik nyelvre lokalizáltak. Az Alexa természetes nyelvértési (NLU) technológiája először a beszédet szöveggé alakítja, majd több NLU-modellt alkalmaz a szövegre, amelyek elemzik a kulcsszavak jelenlétét, hogy meghatározzák a felhasználó kérdésének lényegét.

A készlet létrehozásának és közzétételének egyik célja a hangasszisztensek adaptálása több nyelven történő információfeldolgozáshoz, valamint a külső fejlesztők ösztönzése olyan alkalmazások és szolgáltatások létrehozására, amelyek bővítik a hangasszisztensek képességeit. A fejlesztők figyelmének felkeltésére az Amazon versenyt indított a legjobb általános modell létrehozására egy közzétett adatkészlet felhasználásával.

Jelenleg a hangasszisztensek csak néhány nyelvet támogatnak, és egy adott nyelvhez kötött gépi tanulási modelleket használnak. A MASSIVE projekt ezt a hiányosságot kívánja kiküszöbölni olyan univerzális modellek és gépi tanulási rendszerek létrehozásával, amelyek képesek különböző nyelvű információk elemzésére és feldolgozására.

Forrás: opennet.ru

Hozzászólás