Mise à jour vocale de Mozilla Common Voice 8.0

Mozilla a publié une mise à jour de ses jeux de données Common Voice, qui incluent des échantillons vocaux de près de 200 000 personnes. Ces données sont publiées dans le domaine public (CC0). Elles peuvent être utilisées par les systèmes d'apprentissage automatique pour créer des modèles de reconnaissance et de synthèse vocales. Par rapport à la mise à jour précédente, la taille de la collection a augmenté de 30 %, passant de 13 900 à 18 200 heures de parole. Le nombre de langues prises en charge est passé de 67 à 87.

L'ensemble de la langue russe comprenait 2 452 participants et 193 heures de discours (contre 2 136 participants et 173 heures auparavant), l'ensemble de la langue biélorusse comprenait 6 160 participants et 987 heures (contre 3 831 participants et 356 heures auparavant), et l'ensemble de la langue ukrainienne comprenait 684 participants et 76 heures (contre 615 participants et 66 heures auparavant). Plus de 79 000 personnes ont participé à la préparation des documents en anglais, dictant 2 886 heures de discours vérifiés (contre 75 000 participants et 2 637 heures auparavant).

Pour rappel, le projet Common Voice vise à organiser des efforts collaboratifs pour constituer une base de données de modèles vocaux capturant toute la diversité des voix et des schémas vocaux. Les utilisateurs sont invités à exprimer les phrases affichées à l'écran ou à évaluer la qualité des données ajoutées par d'autres utilisateurs. Cette base de données, contenant des enregistrements de diverses prononciations de phrases humaines typiques, peut être utilisée sans restriction dans les systèmes d'apprentissage automatique et les projets de recherche. Selon Vosk, auteur de la bibliothèque de reconnaissance vocale continue, les lacunes de l'ensemble de données Common Voice incluent la nature biaisée du matériel vocal (prédominance d'hommes âgés de 20 à 30 ans, avec un manque de matériel mettant en scène des femmes, des enfants et des personnes âgées), le manque de diversité du vocabulaire (répétition des mêmes phrases) et la diffusion des enregistrements au format MP3, source de distorsions.

Il convient également de noter la sortie de NVIDIA NeMo 1.6, une boîte à outils fournissant des méthodes d'apprentissage automatique pour la création de systèmes de reconnaissance vocale, de synthèse vocale et de traitement du langage naturel. NeMo inclut des modèles pré-entraînés et prêts à l'emploi pour les systèmes d'apprentissage automatique basés sur le framework PyTorch, développés par NVIDIA à partir des données vocales Common Voice et couvrant différentes langues, accents et formes vocales. Ces modèles peuvent être utiles aux chercheurs développant des systèmes de dialogue à commande vocale, des plateformes de transcription et des centres d'appels automatisés. Par exemple, NVIDIA NeMo est utilisé dans les services vocaux automatisés de MTS et de Sberbank. NeMo est écrit en Python avec PyTorch et est sous licence Apache 2.0.

Source: opennet.ru