Amazon 51 тілде сөйлеуді түсінуге арналған деректер жинағын жариялады

Amazon CC BY 4.0 лицензиясы бойынша "MASSIVE" (Slot Filling, Intent Classification, and Virtual-assistant Evaluation үшін көп тілді Amazon SLURP) деректер жинағын, машиналық оқыту жүйелеріне арналған үлгілерді және пайдалануға болатын жеке үлгілерді оқытуға арналған құралдарды жариялады. табиғи тіл туралы ақпаратты түсіну (NLU, Natural Language Understanding). Жинақ 51 тіл үшін дайындалған миллионнан астам аннотацияланған және жіктелген мәтінді қамтиды.

Бастапқыда ағылшын тілінде қол жетімді SLURP жинағы кәсіби аудармашылардың көмегімен 50 басқа тілге локализацияланған MASSIVE жиынтығын құру үшін анықтама ретінде пайдаланылды. Alexa компаниясының табиғи тілді түсіну (NLU) технологиясы алдымен сөйлеуді мәтінге айналдырады, содан кейін пайдаланушы сұрағының мәнін анықтау үшін кілт сөздердің болуын талдайтын мәтінге бірнеше NLU үлгілерін қолданады.

Жинақты құру және жариялау мақсаттарының бірі - дауыстық көмекшілерді бірден бірнеше тілде ақпаратты өңдеуге бейімдеу, сондай-ақ үшінші тарап әзірлеушілерін дауыс көмекшілерінің мүмкіндіктерін кеңейтетін қолданбалар мен қызметтерді жасауға ынталандыру. Әзірлеушілердің назарын аудару үшін Amazon жарияланған деректер жинағын пайдалана отырып, ең жақсы жалпы үлгіні жасау үшін конкурсты бастады.

Қазіргі уақытта дауыстық көмекшілер бірнеше тілдерді ғана қолдайды және белгілі бір тілге байланысты машиналық оқыту үлгілерін пайдаланады. MASSIVE жобасы әртүрлі тілдердегі ақпаратты талдауға және өңдеуге қабілетті әмбебап үлгілер мен машиналық оқыту жүйелерін жасау арқылы осы кемшілікті жоюға бағытталған.

Ақпарат көзі: opennet.ru

пікір қалдыру