Mise à jour vocale de Mozilla Common Voice 9.0

Mozilla a publié une mise à jour de ses ensembles de données Common Voice, qui incluent des échantillons de prononciation de près de 200 0 personnes. Les données sont publiées dans le domaine public (CCXNUMX). Les ensembles proposés peuvent être utilisés dans les systèmes d’apprentissage automatique pour créer des modèles de reconnaissance et de synthèse vocales.

Par rapport à la mise à jour précédente, le volume de matériel vocal de la collection a augmenté de 10 %, passant de 18.2 à 20.2 mille heures de parole. Le nombre de langues prises en charge est passé de 87 à 93. Pour 27 langues, plus de 100 heures de données vocales ont été accumulées et pour 9, plus de 500 heures de données vocales. Pour 9 langues, il a également été possible d'atteindre une part de parole féminine d'au moins 45 %.

Plus de 81 2953 personnes ont participé à la préparation du matériel en anglais, dictant 79 2886 heures de discours (il y avait 6326 1054 participants et 6160 987 heures). L'ensemble pour la langue biélorusse couvre 2585 201 participants et 2452 193 heures de matériel vocal (il y avait 1503 231 participants et 1355 heures), le russe - 227 696 participants et 79 heures (il y avait 684 76 participants et XNUMX heures), l'ouzbek - XNUMX XNUMX participants et XNUMX heures ( il y avait XNUMX participants et XNUMX heures), langue ukrainienne - XNUMX participants et XNUMX heures (il y avait XNUMX participants et XNUMX heures).

Le projet Common Voice vise à organiser un travail commun pour accumuler une base de données de modèles de voix prenant en compte la diversité des voix et des styles de parole. Les utilisateurs sont invités à exprimer des phrases affichées à l'écran ou à évaluer la qualité des données ajoutées par d'autres utilisateurs. La base de données accumulée contenant des enregistrements de diverses prononciations d'expressions typiques du discours humain peut être utilisée sans restrictions dans les systèmes d'apprentissage automatique et dans les projets de recherche.

Source: opennet.ru

Ajouter un commentaire