Actualización de Mozilla Common Voice 7.0

NVIDIA e Mozilla lanzaron unha actualización dos seus conxuntos de datos de Common Voice, que inclúen mostras de voz de 182 persoas, un 25 % máis que hai 6 meses. Os datos publícanse como dominio público (CC0). Os conxuntos propostos pódense utilizar en sistemas de aprendizaxe automática para construír modelos de síntese e recoñecemento de voz.

En comparación coa actualización anterior, o tamaño do material de discurso da colección aumentou de 9 a 13.9 mil horas de fala. O número de linguas admitidas aumentou de 60 a 76, incluíndo por primeira vez o soporte para as linguas bielorrusa, kazakh, uzbeco, búlgaro, armenio, azerbaiyano e bashkir. O conxunto para a lingua rusa abrangue 2136 participantes e 173 horas de material de discurso (houbo 1412 participantes e 111 horas), e para a lingua ucraína - 615 participantes e 66 horas (houbo 459 participantes e 30 horas).

Máis de 75 mil persoas participaron na elaboración de materiais en inglés, ditando 2637 horas de discurso confirmado (houbo 66 mil participantes e 1686 horas). Curiosamente, o idioma en segundo lugar en canto á cantidade de datos acumulados é Ruanda, para o que se recolleron 2260 horas. Séguenlle o alemán (1040), o catalán (920) e o esperanto (840). Entre os que aumentan máis dinámicamente o tamaño dos datos de voz están a lingua tailandesa (aumento de 20 veces na base, de 12 a 250 horas), luganda (de 8 a 80 horas), o esperanto (de 100 a 840 horas) e o tamil ( de 24 a 220 horas). horas).

Como parte da súa participación no proxecto Common Voice, NVIDIA preparou modelos preparados para sistemas de aprendizaxe automática (soportados por PyTorch) baseados nos datos recollidos. Os modelos distribúense como parte do kit de ferramentas NVIDIA NeMo gratuíto e aberto, que, por exemplo, xa se usa nos servizos de voz automatizados de MTS e Sberbank. Os modelos están pensados ​​para o seu uso en sistemas de recoñecemento de voz, síntese de voz e procesamento da linguaxe natural, e poden ser útiles para os investigadores que crean sistemas de diálogo activados por voz, plataformas de transcrición e centros de chamadas automatizados. A diferenza dos proxectos dispoñibles anteriormente, os modelos publicados non se limitan ao recoñecemento da lingua inglesa e abarcan unha variedade de idiomas, acentos e formas de fala.

Lembramos que o proxecto Common Voice vai dirixido a organizar un traballo conxunto para acumular unha base de datos de patróns de voz que teña en conta a diversidade de voces e estilos de fala. Os usuarios son invitados a frases de voz que se mostran na pantalla ou avaliar a calidade dos datos engadidos por outros usuarios. A base de datos acumulada con rexistros de varias pronuncias de frases típicas da fala humana pódese usar sen restricións en sistemas de aprendizaxe automática e en proxectos de investigación.

Segundo o autor da biblioteca de recoñecemento de voz continuo de Vosk, as desvantaxes do conxunto de Voz común son a unilateralidade do material de voz (o predominio de homes de 20 a 30 anos e a falta de material con voces de mulleres). , nenos e maiores), a falta de variabilidade no dicionario (repetición das mesmas frases) e a distribución de gravacións en formato MP3 distorsionador.

Fonte: opennet.ru

Engadir un comentario