Actualización de voz de Mozilla Common Voice 8.0

Mozilla ha publicado una actualización de sus conjuntos de datos de Common Voice, que incluyen muestras de pronunciación de casi 200 personas. Los datos se publican como dominio público (CC0). Los conjuntos propuestos se pueden utilizar en sistemas de aprendizaje automático para construir modelos de síntesis y reconocimiento de voz. En comparación con la actualización anterior, el volumen de material de discursos de la colección aumentó en un 30%: de 13.9 a 18.2 mil horas de discursos. La cantidad de idiomas admitidos ha aumentado de 67 a 87.

El conjunto para el idioma ruso cubre 2452 participantes y 193 horas de material oral (hubo 2136 participantes y 173 horas), para el idioma bielorruso - 6160 participantes y 987 horas (hubo 3831 participantes y 356 horas), para el idioma ucraniano - 684 participantes y 76 horas (fueron 615 participantes y 66 horas). En la preparación de los materiales en inglés participaron más de 79 mil personas, dictando 2886 horas de discurso confirmado (fueron 75 mil participantes y 2637 horas).

Recordemos que el proyecto Voz Común tiene como objetivo organizar el trabajo conjunto para acumular una base de datos de patrones de voz que tenga en cuenta la diversidad de voces y estilos de habla. Se invita a los usuarios a expresar frases que se muestran en la pantalla o evaluar la calidad de los datos agregados por otros usuarios. La base de datos acumulada con registros de diversas pronunciaciones de frases típicas del habla humana se puede utilizar sin restricciones en sistemas de aprendizaje automático y en proyectos de investigación. Según el autor de la biblioteca de reconocimiento continuo de voz Vosk, las desventajas del conjunto Common Voice son la unilateralidad del material de voz (el predominio de hombres de entre 20 y 30 años y la falta de material con voces de mujeres). , niños y ancianos), la falta de variabilidad en el diccionario (repetición de las mismas frases) y la distribución de grabaciones en el distorsionador formato MP3.

Además, podemos destacar el lanzamiento del kit de herramientas NVIDIA NeMo 1.6, que proporciona métodos de aprendizaje automático para crear sistemas de reconocimiento de voz, síntesis de voz y procesamiento del lenguaje natural. NeMo incluye modelos entrenados listos para usar para sistemas de aprendizaje automático basados ​​en el marco PyTorch, preparados por NVIDIA utilizando datos de voz de Common Voice y que cubren una variedad de idiomas, acentos y formas de habla. Los modelos pueden resultar útiles para los investigadores que desarrollan sistemas de diálogo basados ​​en voz, plataformas de transcripción y centros de llamadas automatizados. Por ejemplo, NVIDIA NeMo se utiliza en los servicios de voz automatizados de MTS y Sberbank. El código NeMo está escrito en Python usando PyTorch y distribuido bajo la licencia Apache 2.0.

Fuente: opennet.ru

Añadir un comentario