Amazon publicó un conjunto de datos para comprender el habla en 51 idiomas

Amazon ha publicado bajo una licencia CC BY 4.0 el conjunto de datos "MASSIVE" (Amazon SLURP multilingüe para llenado de ranuras, clasificación de intenciones y evaluación de asistente virtual), modelos para sistemas de aprendizaje automático y herramientas para entrenar sus propios modelos que se pueden utilizar para comprender información en lenguaje natural (NLU, Natural Language Understanding). El conjunto incluye más de un millón de expresiones de texto anotadas y clasificadas preparadas para 51 idiomas.

La colección SLURP, originalmente disponible para inglés, se utilizó como referencia para crear el conjunto MASSIVE, que se tradujo a otros 50 idiomas mediante traductores profesionales. La tecnología de comprensión del lenguaje natural (NLU) de Alexa primero convierte la voz en texto y luego aplica múltiples modelos NLU al texto que analizan la presencia de palabras clave para determinar la esencia de la pregunta del usuario.

Uno de los objetivos de la creación y publicación del conjunto es adaptar los asistentes de voz para procesar información en varios idiomas a la vez, así como alentar a desarrolladores externos a crear aplicaciones y servicios que amplíen las capacidades de los asistentes de voz. Para atraer la atención de los desarrolladores, Amazon lanzó un concurso para crear el mejor modelo genérico utilizando un conjunto de datos publicado.

Actualmente, los asistentes de voz solo admiten unos pocos idiomas y utilizan modelos de aprendizaje automático vinculados a un idioma específico. El proyecto MASSIVE tiene como objetivo eliminar esta deficiencia mediante la creación de modelos universales y sistemas de aprendizaje automático capaces de analizar y procesar información en diferentes idiomas.

Fuente: opennet.ru

Añadir un comentario