Mise à jour vocale de Mozilla Common Voice 7.0

NVIDIA et Mozilla ont publié une mise à jour de leurs ensembles de données Common Voice, qui incluent 182 25 échantillons de parole de personnes, soit une hausse de 6 % par rapport à il y a 0 mois. Les données sont publiées dans le domaine public (CCXNUMX). Les ensembles proposés peuvent être utilisés dans les systèmes d’apprentissage automatique pour créer des modèles de reconnaissance et de synthèse vocales.

Par rapport à la mise à jour précédente, la taille du matériel vocal de la collection est passée de 9 à 13.9 mille heures de parole. Le nombre de langues prises en charge est passé de 60 à 76, y compris pour la première fois la prise en charge des langues biélorusse, kazakhe, ouzbek, bulgare, arménien, azerbaïdjanais et bachkir. L'ensemble pour la langue russe couvre 2136 173 participants et 1412 heures de matériel vocal (il y avait 111 615 participants et 66 heures), et pour la langue ukrainienne - 459 participants et 30 heures (il y avait XNUMX participants et XNUMX heures).

Plus de 75 2637 personnes ont participé à la préparation du matériel en anglais, dictant 66 1686 heures de discours confirmé (il y avait 2260 1040 participants et 920 840 heures). Il est intéressant de noter que la deuxième langue en termes de quantité de données accumulées est le Rwanda, pour lequel 20 12 heures ont été collectées. Viennent ensuite l'allemand (250 8), le catalan (80) et l'espéranto (100). Parmi les langues qui augmentent le plus dynamiquement la taille des données vocales figurent la langue thaïlandaise (multiplication par 840 de la base, de 24 à 220 heures), le luganda (de XNUMX à XNUMX heures), l'espéranto (de XNUMX à XNUMX heures) et le tamoul ( de XNUMX à XNUMX heures).

Dans le cadre de sa participation au projet Common Voice, NVIDIA a préparé des modèles formés prêts à l'emploi pour les systèmes d'apprentissage automatique (pris en charge par PyTorch) sur la base des données collectées. Les modèles sont distribués dans le cadre de la boîte à outils gratuite et ouverte NVIDIA NeMo, qui, par exemple, est déjà utilisée dans les services vocaux automatisés de MTS et de Sberbank. Les modèles sont destinés à être utilisés dans les systèmes de reconnaissance vocale, de synthèse vocale et de traitement du langage naturel, et peuvent être utiles aux chercheurs qui construisent des systèmes de dialogue à commande vocale, des plates-formes de transcription et des centres d'appels automatisés. Contrairement aux projets précédemment disponibles, les modèles publiés ne se limitent pas à la reconnaissance de la langue anglaise et couvrent une variété de langues, d'accents et de formes de discours.

Rappelons que le projet Common Voice vise à organiser un travail commun pour accumuler une base de données de modèles vocaux prenant en compte la diversité des voix et des styles de parole. Les utilisateurs sont invités à exprimer des phrases affichées à l'écran ou à évaluer la qualité des données ajoutées par d'autres utilisateurs. La base de données accumulée contenant des enregistrements de diverses prononciations d'expressions typiques du discours humain peut être utilisée sans restrictions dans les systèmes d'apprentissage automatique et dans les projets de recherche.

Selon l'auteur de la bibliothèque de reconnaissance vocale continue Vosk, les inconvénients de l'ensemble Common Voice sont le caractère unilatéral du matériel vocal (la prédominance des hommes de 20 à 30 ans et le manque de matériel avec les voix des femmes). , enfants et personnes âgées), le manque de variabilité du dictionnaire (répétition des mêmes phrases) et la diffusion des enregistrements au format MP3 déformant.

Source: opennet.ru

Ajouter un commentaire