Amazon zveřejnil soubor dat pro porozumění řeči v 51 jazycích

Amazon zveřejnil pod licencí CC BY 4.0 datovou sadu „MASSIVE“ (Multilingual Amazon SLURP for Slot Filling, Intent Classification a Virtual-assistant Evaluation), modely pro systémy strojového učení a nástroje pro trénování vašich vlastních modelů, které lze použít k porozumět informacím o přirozeném jazyce (NLU, Natural Language Understanding). Sada obsahuje více než milion komentovaných a klasifikovaných textových výpovědí připravených pro 51 jazyků.

Kolekce SLURP, původně dostupná pro angličtinu, byla použita jako reference pro vytvoření sady MASSIVE, která byla pomocí profesionálních překladatelů lokalizována do 50 dalších jazyků. Technologie Alexa pro porozumění přirozenému jazyku (NLU) nejprve převádí řeč na text a poté na text aplikuje několik modelů NLU, které analyzují přítomnost klíčových slov, aby určily podstatu otázky uživatele.

Jedním z cílů vytváření a publikování sady je přizpůsobit hlasové asistenty tak, aby zpracovávali informace v několika jazycích najednou, a také povzbudit vývojáře třetích stran k vytváření aplikací a služeb, které rozšiřují možnosti hlasových asistentů. Aby Amazon upoutal pozornost vývojářů, spustil soutěž o vytvoření nejlepšího generického modelu pomocí publikované datové sady.

V současné době hlasoví asistenti podporují pouze několik jazyků a používají modely strojového učení vázané na konkrétní jazyk. Projekt MASSIVE si klade za cíl tento nedostatek odstranit vytvořením univerzálních modelů a systémů strojového učení schopných analyzovat a zpracovávat informace v různých jazycích.

Zdroj: opennet.ru

Přidat komentář