Actualización de Mozilla Common Voice 9.0

Mozilla lanzou unha actualización dos seus conxuntos de datos de Common Voice, que inclúen mostras de pronuncia de case 200 persoas. Os datos publícanse como dominio público (CC0). Os conxuntos propostos pódense utilizar en sistemas de aprendizaxe automática para construír modelos de síntese e recoñecemento de voz.

En comparación coa actualización anterior, o volume de material de fala na colección aumentou un 10% - de 18.2 a 20.2 mil horas de fala. O número de idiomas admitidos aumentou de 87 a 93. Para 27 idiomas acumuláronse máis de 100 horas de datos de fala e para 9 - máis de 500 horas de datos de fala. Para 9 linguas tamén foi posible acadar unha cota de fala feminina de polo menos o 45%.

Máis de 81 mil persoas participaron na elaboración de materiais en inglés, ditando 2953 horas de discurso (foi 79 mil participantes e 2886 horas). O conxunto para o idioma bielorruso abrangue 6326 participantes e 1054 horas de material de discurso (houbo 6160 participantes e 987 horas), ruso - 2585 participantes e 201 horas (houbo 2452 participantes e 193 horas), uzbeco - 1503 participantes e 231 horas ( houbo 1355 participantes e 227 horas), lingua ucraína - 696 participantes e 79 horas (houbo 684 participantes e 76 horas).

O proxecto Common Voice pretende organizar un traballo conxunto para acumular unha base de datos de patróns de voz que teña en conta a diversidade de voces e estilos de fala. Os usuarios son invitados a frases de voz que se mostran na pantalla ou avaliar a calidade dos datos engadidos por outros usuarios. A base de datos acumulada con rexistros de varias pronuncias de frases típicas da fala humana pódese usar sen restricións en sistemas de aprendizaxe automática e en proxectos de investigación.

Fonte: opennet.ru

Engadir un comentario