Mise à jour vocale de Mozilla Common Voice 12.0

Mozilla a mis à jour ses ensembles de données Common Voice pour inclure des échantillons de prononciation de plus de 200 0 personnes. Les données sont publiées dans le domaine public (CCXNUMX). Les ensembles proposés peuvent être utilisés dans les systèmes d’apprentissage automatique pour créer des modèles de reconnaissance et de synthèse vocales.

Par rapport à la mise à jour précédente, le volume de matériel vocal de la collection est passé de 23.8 à 25.8 mille heures de parole. Plus de 88 3161 personnes ont participé à la préparation du matériel en anglais, dictant 84 3098 heures de discours (il y avait 7903 1419 participants et 6965 1217 heures). L'ensemble pour la langue biélorusse couvre 2815 participants et 229 heures de matériel vocal (il y avait 2731 participants et 215 heures), le russe - 2092 participants et 262 heures (il y avait 2025 participants et 258 heures), l'ouzbek - 780 participants et 87 heures ( il y avait 759 participants et 87 heures), langue ukrainienne - XNUMX participants et XNUMX heures (il y avait XNUMX participants et XNUMX heures).

Le projet Common Voice vise à organiser un travail commun pour accumuler une base de données de modèles de voix prenant en compte la diversité des voix et des styles de parole. Les utilisateurs sont invités à exprimer des phrases affichées à l'écran ou à évaluer la qualité des données ajoutées par d'autres utilisateurs. La base de données accumulée contenant des enregistrements de diverses prononciations d'expressions typiques du discours humain peut être utilisée sans restrictions dans les systèmes d'apprentissage automatique et dans les projets de recherche.

Source: opennet.ru

Ajouter un commentaire