Actualización de Mozilla Common Voice 12.0

Mozilla actualizou os seus conxuntos de datos de Common Voice para incluír mostras de pronuncia de máis de 200 persoas. Os datos publícanse como dominio público (CC0). Os conxuntos propostos pódense utilizar en sistemas de aprendizaxe automática para construír modelos de síntese e recoñecemento de voz.

En comparación coa actualización anterior, o volume de material de fala na colección aumentou de 23.8 a 25.8 mil horas de fala. Máis de 88 mil persoas participaron na elaboración de materiais en inglés, ditando 3161 horas de discurso (foron 84 mil participantes e 3098 horas). O conxunto para o idioma bielorruso abrangue 7903 participantes e 1419 horas de material de discurso (houbo 6965 participantes e 1217 horas), ruso - 2815 participantes e 229 horas (houbo 2731 participantes e 215 horas), uzbeco - 2092 participantes e 262 horas ( houbo 2025 participantes e 258 horas), lingua ucraína - 780 participantes e 87 horas (houbo 759 participantes e 87 horas).

O proxecto Common Voice pretende organizar un traballo conxunto para acumular unha base de datos de patróns de voz que teña en conta a diversidade de voces e estilos de fala. Os usuarios son invitados a frases de voz que se mostran na pantalla ou avaliar a calidade dos datos engadidos por outros usuarios. A base de datos acumulada con rexistros de varias pronuncias de frases típicas da fala humana pódese usar sen restricións en sistemas de aprendizaxe automática e en proxectos de investigación.

Fonte: opennet.ru

Engadir un comentario