Actualización de voz de Mozilla Common Voice 7.0

NVIDIA y Mozilla han lanzado una actualización de sus conjuntos de datos de Common Voice, que incluyen muestras de voz de 182 personas, un 25 % más que hace 6 meses. Los datos se publican como dominio público (CC0). Los conjuntos propuestos se pueden utilizar en sistemas de aprendizaje automático para construir modelos de síntesis y reconocimiento de voz.

En comparación con la actualización anterior, el tamaño del material de discursos de la colección aumentó de 9 a 13.9 mil horas de discursos. El número de idiomas admitidos ha aumentado de 60 a 76, incluido por primera vez el soporte para los idiomas bielorruso, kazajo, uzbeko, búlgaro, armenio, azerbaiyano y bashkir. El conjunto para el idioma ruso abarca 2136 participantes y 173 horas de material oral (hubo 1412 participantes y 111 horas), y para el idioma ucraniano, 615 participantes y 66 horas (hubo 459 participantes y 30 horas).

En la preparación de los materiales en inglés participaron más de 75 mil personas, dictando 2637 horas de discurso confirmado (fueron 66 mil participantes y 1686 horas). Curiosamente, el idioma que ocupa el segundo lugar en términos de cantidad de datos acumulados es Ruanda, para el que se han recopilado 2260 horas. Le siguen el alemán (1040), el catalán (920) y el esperanto (840). Entre los idiomas que aumentan más dinámicamente el tamaño de los datos de voz se encuentran el idioma tailandés (aumento de 20 veces en la base, de 12 a 250 horas), luganda (de 8 a 80 horas), esperanto (de 100 a 840 horas) y tamil ( de 24 a 220 horas).

Como parte de su participación en el proyecto Common Voice, NVIDIA preparó modelos entrenados listos para usar para sistemas de aprendizaje automático (compatibles con PyTorch) basados ​​en los datos recopilados. Los modelos se distribuyen como parte del kit de herramientas NVIDIA NeMo, abierto y gratuito, que, por ejemplo, ya se utiliza en los servicios de voz automatizados de MTS y Sberbank. Los modelos están destinados a su uso en sistemas de reconocimiento de voz, síntesis de voz y procesamiento del lenguaje natural, y pueden ser útiles para investigadores que creen sistemas de diálogo activados por voz, plataformas de transcripción y centros de llamadas automatizados. A diferencia de los proyectos disponibles anteriormente, los modelos publicados no se limitan al reconocimiento del idioma inglés y cubren una variedad de idiomas, acentos y formas de habla.

Recordemos que el proyecto Voz Común tiene como objetivo organizar el trabajo conjunto para acumular una base de datos de patrones de voz que tenga en cuenta la diversidad de voces y estilos de habla. Se invita a los usuarios a expresar frases que se muestran en la pantalla o evaluar la calidad de los datos agregados por otros usuarios. La base de datos acumulada con registros de diversas pronunciaciones de frases típicas del habla humana se puede utilizar sin restricciones en sistemas de aprendizaje automático y en proyectos de investigación.

Según el autor de la biblioteca de reconocimiento continuo de voz Vosk, las desventajas del conjunto Common Voice son la unilateralidad del material de voz (el predominio de hombres de entre 20 y 30 años y la falta de material con voces de mujeres). , niños y ancianos), la falta de variabilidad en el diccionario (repetición de las mismas frases) y la distribución de grabaciones en el distorsionador formato MP3.

Fuente: opennet.ru

Añadir un comentario