Amazon publica un conxunto de datos de comprensión da fala en 51 idiomas

Amazon publicou baixo unha licenza CC BY 4.0 o conxunto de datos "MASSIVE" (Amazon SLURP multilingüe para recheo de espazos, clasificación de intencións e avaliación de asistente virtual), modelos para sistemas de aprendizaxe automática e ferramentas para adestrar os seus propios modelos que se poden usar para Comprender información sobre a linguaxe natural (NLU, Natural Language Understanding). O conxunto inclúe máis dun millón de enunciados de texto anotados e clasificados preparados para 51 idiomas.

A colección SLURP, orixinalmente dispoñible para inglés, utilizouse como referencia para construír o conxunto MASSIVE, que foi localizado noutros 50 idiomas mediante tradutores profesionais. A tecnoloxía de comprensión da linguaxe natural (NLU) de Alexa converte primeiro o discurso en texto e despois aplica varios modelos NLU ao texto que analizan a presenza de palabras clave para determinar a esencia da pregunta do usuario.

Un dos obxectivos da creación e publicación do conxunto é adaptar os asistentes de voz para procesar información en varios idiomas á vez, así como animar aos desenvolvedores de terceiros a crear aplicacións e servizos que amplían as capacidades dos asistentes de voz. Para atraer a atención dos desenvolvedores, Amazon lanzou un concurso para crear o mellor modelo xenérico utilizando un conxunto de datos publicado.

Actualmente, os asistentes de voz só admiten algúns idiomas e usan modelos de aprendizaxe automática vinculados a un idioma específico. O proxecto MASSIVE pretende eliminar esta deficiencia creando modelos universais e sistemas de aprendizaxe automática capaces de analizar e procesar información en diferentes idiomas.

Fonte: opennet.ru

Engadir un comentario