NVIDIA invierte 1.5 millones de dólares en el proyecto Mozilla Common Voice

NVIDIA está invirtiendo 1.5 millones de dólares en el proyecto Mozilla Common Voice. El interés en los sistemas de reconocimiento de voz surge de la predicción de que en los próximos diez años, la tecnología de voz se convertirá en una de las principales formas en que las personas interactuarán con dispositivos que van desde computadoras y teléfonos hasta asistentes digitales y quioscos.

El rendimiento de los sistemas de voz depende en gran medida del volumen y la variedad de datos de voz disponibles para entrenar modelos de aprendizaje automático. La tecnología de voz actual se centra principalmente en el reconocimiento del idioma inglés y no cubre la amplia gama de idiomas, acentos y patrones de habla. La inversión ayudará a acelerar el crecimiento de los datos de voz públicos, involucrar a más comunidades y voluntarios y ampliar la cantidad de personal de proyectos a tiempo completo.

Recordemos que el proyecto Voz Común tiene como objetivo organizar el trabajo conjunto para acumular una base de datos de patrones de voz que tenga en cuenta la diversidad de voces y estilos de habla. Se invita a los usuarios a expresar frases que se muestran en la pantalla o evaluar la calidad de los datos agregados por otros usuarios. La base de datos acumulada con registros de diversas pronunciaciones de frases típicas del habla humana se puede utilizar sin restricciones en sistemas de aprendizaje automático y en proyectos de investigación.

El conjunto Common Voice incluye actualmente ejemplos de pronunciación de más de 164 personas. Se han acumulado cerca de 9 mil horas de datos de voz en 60 idiomas diferentes. El conjunto para el idioma ruso abarca 1412 participantes y 111 horas de material oral, y para el idioma ucraniano, 459 participantes y 30 horas. En comparación, en la preparación de los materiales en inglés participaron más de 66 mil personas, dictando 1686 horas de discurso verificado. Los conjuntos propuestos se pueden utilizar en sistemas de aprendizaje automático para construir modelos de síntesis y reconocimiento de voz. Los datos se publican como dominio público (CC0).

Según el autor de la biblioteca de reconocimiento continuo de voz Vosk, las desventajas del conjunto Common Voice son la unilateralidad del material de voz (el predominio de hombres de entre 20 y 30 años y la falta de material con voces de mujeres). , niños y ancianos), la falta de variabilidad en el diccionario (repetición de las mismas frases) y la distribución de grabaciones en el distorsionador formato MP3.

Fuente: opennet.ru

Añadir un comentario