Actualización de Mozilla Common Voice 8.0

Mozilla lanzou unha actualización dos seus conxuntos de datos de Common Voice, que inclúen mostras de pronuncia de case 200 persoas. Os datos publícanse como dominio público (CC0). Os conxuntos propostos pódense utilizar en sistemas de aprendizaxe automática para construír modelos de síntese e recoñecemento de voz. En comparación coa actualización anterior, o volume de material de fala na colección aumentou un 30% - de 13.9 a 18.2 mil horas de fala. O número de idiomas admitidos aumentou de 67 a 87.

O conxunto para a lingua rusa abrangue 2452 participantes e 193 horas de material de discurso (houbo 2136 participantes e 173 horas), para a lingua bielorrusa - 6160 participantes e 987 horas (houbo 3831 participantes e 356 horas), para a lingua ucraína - 684 participantes e 76 horas ( houbo 615 participantes e 66 horas). Máis de 79 mil persoas participaron na elaboración de materiais en inglés, ditando 2886 horas de discurso confirmado (foron 75 mil participantes e 2637 horas).

Lembramos que o proxecto Common Voice vai dirixido a organizar un traballo conxunto para acumular unha base de datos de patróns de voz que teña en conta a diversidade de voces e estilos de fala. Os usuarios son invitados a frases de voz que se mostran na pantalla ou avaliar a calidade dos datos engadidos por outros usuarios. A base de datos acumulada con rexistros de varias pronuncias de frases típicas da fala humana pódese usar sen restricións en sistemas de aprendizaxe automática e en proxectos de investigación. Segundo o autor da biblioteca de recoñecemento de voz continuo de Vosk, as desvantaxes do conxunto de Voz común son a unilateralidade do material de voz (o predominio de homes de 20 a 30 anos e a falta de material con voces de mulleres). , nenos e maiores), a falta de variabilidade no dicionario (repetición das mesmas frases) e a distribución de gravacións en formato MP3 distorsionador.

Ademais, podemos destacar o lanzamento do kit de ferramentas NVIDIA NeMo 1.6, que ofrece métodos de aprendizaxe automática para crear sistemas de recoñecemento de voz, síntese de voz e procesamento da linguaxe natural. NeMo inclúe modelos adestrados listos para usar para sistemas de aprendizaxe automática baseados no marco PyTorch, preparados por NVIDIA utilizando datos de voz de Common Voice e que abarcan unha variedade de idiomas, acentos e formas de fala. Os modelos poden ser útiles para os investigadores que desenvolven sistemas de diálogo baseados en voz, plataformas de transcrición e centros de chamadas automatizados. Por exemplo, NVIDIA NeMo úsase nos servizos de voz automatizados de MTS e Sberbank. O código NeMo está escrito en Python usando PyTorch e distribúese baixo a licenza Apache 2.0.

Fonte: opennet.ru

Engadir un comentario