Amazon je objavio skup podataka za razumijevanje govora na 51 jeziku

Amazon je pod licencom CC BY 4.0 objavio skup podataka "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-Assistant Evaluation), modele za sustave strojnog učenja i alate za obuku vlastitih modela koji se mogu koristiti za razumjeti informacije o prirodnom jeziku (NLU, Natural Language Understanding). Skup uključuje više od milijun komentiranih i klasificiranih tekstualnih izjava pripremljenih za 51 jezik.

Zbirka SLURP, izvorno dostupna za engleski, korištena je kao referenca za izradu MASSIVE seta, koji je lokaliziran na 50 drugih jezika uz pomoć profesionalnih prevoditelja. Alexa tehnologija razumijevanja prirodnog jezika (NLU) prvo pretvara govor u tekst, zatim primjenjuje višestruke NLU modele na tekst koji analiziraju prisutnost ključnih riječi kako bi odredili bit korisnikova pitanja.

Jedan od ciljeva stvaranja i objavljivanja skupa je prilagoditi glasovne pomoćnike za obradu informacija na nekoliko jezika odjednom, kao i potaknuti programere trećih strana na stvaranje aplikacija i usluga koje proširuju mogućnosti glasovnih pomoćnika. Kako bi privukao pozornost programera, Amazon je pokrenuo natjecanje za stvaranje najboljeg generičkog modela koristeći objavljeni skup podataka.

Trenutačno glasovni asistenti podržavaju samo nekoliko jezika i koriste modele strojnog učenja vezane za određeni jezik. Projekt MASSIVE ima za cilj eliminirati ovaj nedostatak stvaranjem univerzalnih modela i sustava strojnog učenja sposobnih za parsiranje i obradu informacija na različitim jezicima.

Izvor: opennet.ru

Dodajte komentar