Amazon avaldas andmestiku kõne mõistmiseks 51 keeles

Amazon on CC BY 4.0 litsentsi alusel avaldanud andmestiku "MASSIVE" (mitmekeelne Amazon SLURP for slot Filling, Intent Classification ja Virtual-Assistant Evaluation), masinõppesüsteemide mudelid ja tööriistad teie enda mudelite koolitamiseks, mida saab kasutada mõista teavet loomuliku keele kohta (NLU, Natural Language Understanding). Komplektis on üle miljoni annoteeritud ja salastatud tekstiütluse, mis on koostatud 51 keele jaoks.

SLURP kollektsiooni, mis oli algselt saadaval inglise keeles, kasutati võrdlusalusena komplekti MASSIVE koostamisel, mis lokaliseeriti professionaalsete tõlkijate abil 50 muusse keelde. Alexa loomuliku keele mõistmise (NLU) tehnoloogia teisendab esmalt kõne tekstiks, seejärel rakendab tekstile mitu NLU mudelit, mis analüüsivad märksõnade olemasolu, et määrata kindlaks kasutaja küsimuse olemus.

Komplekti loomise ja avaldamise üks eesmärke on kohandada hääleassistente korraga mitmes keeles teabe töötlemiseks, samuti julgustada kolmandate osapoolte arendajaid looma rakendusi ja teenuseid, mis laiendavad hääleassistentide võimalusi. Arendajate tähelepanu köitmiseks käivitas Amazon konkursi parima üldise mudeli loomiseks avaldatud andmekogumi abil.

Praegu toetavad hääleassistendid vaid mõnda keelt ja kasutavad konkreetse keelega seotud masinõppemudeleid. Projekti MASSIVE eesmärk on see puudus kõrvaldada, luues universaalseid mudeleid ja masinõppesüsteeme, mis on võimelised eri keeltes teavet sõeluma ja töötlema.

Allikas: opennet.ru

Lisa kommentaar