Mise à jour vocale de Mozilla Common Voice 8.0

Mozilla a publié une mise à jour de ses ensembles de données Common Voice, qui incluent des échantillons de prononciation de près de 200 0 personnes. Les données sont publiées dans le domaine public (CC30). Les ensembles proposés peuvent être utilisés dans les systèmes d’apprentissage automatique pour créer des modèles de reconnaissance et de synthèse vocales. Par rapport à la mise à jour précédente, le volume de matériel vocal de la collection a augmenté de 13.9 % - de 18.2 mille à 67 mille heures de parole. Le nombre de langues prises en charge est passé de 87 à XNUMX.

L'ensemble pour la langue russe couvre 2452 participants et 193 heures de matériel vocal (il y avait 2136 participants et 173 heures), pour la langue biélorusse - 6160 participants et 987 heures (il y avait 3831 participants et 356 heures), pour la langue ukrainienne - 684 participants et 76 heures (il y avait 615 participants et 66 heures). Plus de 79 2886 personnes ont participé à la préparation du matériel en anglais, dictant 75 2637 heures de discours confirmé (il y avait XNUMX XNUMX participants et XNUMX XNUMX heures).

Rappelons que le projet Common Voice vise à organiser un travail commun pour accumuler une base de données de modèles vocaux prenant en compte la diversité des voix et des styles de parole. Les utilisateurs sont invités à exprimer des phrases affichées à l'écran ou à évaluer la qualité des données ajoutées par d'autres utilisateurs. La base de données accumulée contenant des enregistrements de diverses prononciations d'expressions typiques du discours humain peut être utilisée sans restrictions dans les systèmes d'apprentissage automatique et dans les projets de recherche. Selon l'auteur de la bibliothèque de reconnaissance vocale continue Vosk, les inconvénients de l'ensemble Common Voice sont le caractère unilatéral du matériel vocal (la prédominance des hommes de 20 à 30 ans et le manque de matériel avec les voix des femmes). , enfants et personnes âgées), le manque de variabilité du dictionnaire (répétition des mêmes phrases) et la diffusion des enregistrements au format MP3 déformant.

De plus, on peut noter la sortie de la boîte à outils NVIDIA NeMo 1.6, qui fournit des méthodes d'apprentissage automatique pour créer des systèmes de reconnaissance vocale, de synthèse vocale et de traitement du langage naturel. NeMo comprend des modèles formés prêts à l'emploi pour les systèmes d'apprentissage automatique basés sur le framework PyTorch, préparés par NVIDIA à l'aide des données vocales Common Voice et couvrant une variété de langues, d'accents et de formes de parole. Les modèles peuvent être utiles aux chercheurs développant des systèmes de dialogue vocal, des plates-formes de transcription et des centres d'appels automatisés. Par exemple, NVIDIA NeMo est utilisé dans les services vocaux automatisés de MTS et Sberbank. Le code NeMo est écrit en Python à l'aide de PyTorch et distribué sous la licence Apache 2.0.

Source: opennet.ru

Ajouter un commentaire