Amazon publicou um conjunto de dados para compreensão da fala em 51 idiomas

A Amazon publicou sob uma licença CC BY 4.0 o conjunto de dados "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-Assistent Evaluation), modelos para sistemas de aprendizado de máquina e ferramentas para treinar seus próprios modelos que podem ser usados ​​para compreender informações sobre linguagem natural (NLU, Natural Language Understanding). O conjunto inclui mais de um milhão de enunciados de texto anotados e classificados preparados para 51 idiomas.

O acervo SLURP, originalmente disponível em inglês, foi utilizado como referência para a construção do conjunto MASSIVE, que foi localizado para outros 50 idiomas por meio de tradutores profissionais. A tecnologia de compreensão de linguagem natural (NLU) do Alexa primeiro converte a fala em texto e, em seguida, aplica vários modelos NLU ao texto que analisam a presença de palavras-chave para determinar a essência da pergunta do usuário.

Um dos objetivos da criação e publicação do conjunto é adaptar assistentes de voz para processar informações em vários idiomas ao mesmo tempo, bem como incentivar desenvolvedores terceirizados a criar aplicativos e serviços que ampliem as capacidades dos assistentes de voz. Para atrair a atenção dos desenvolvedores, a Amazon lançou um concurso para criar o melhor modelo genérico usando um conjunto de dados publicado.

Atualmente, os assistentes de voz suportam apenas alguns idiomas e usam modelos de aprendizado de máquina vinculados a um idioma específico. O projeto MASSIVE visa eliminar esta lacuna através da criação de modelos universais e sistemas de aprendizagem automática capazes de analisar e processar informação em diferentes linguagens.

Fonte: opennet.ru

Adicionar um comentário