NVIDIA investit 1.5 million de dollars dans le projet Mozilla Common Voice

NVIDIA investit 1.5 million de dollars dans le projet Mozilla Common Voice. L'intérêt pour les systèmes de reconnaissance vocale découle de la prévision selon laquelle, au cours des dix prochaines années, la technologie vocale deviendra l'un des principaux moyens par lesquels les gens interagissent avec des appareils allant des ordinateurs et téléphones aux assistants numériques et kiosques.

Les performances des systèmes vocaux dépendent fortement du volume et de la variété des données vocales disponibles pour la formation des modèles d'apprentissage automatique. La technologie vocale actuelle se concentre principalement sur la reconnaissance de la langue anglaise et ne couvre pas le vaste éventail de langues, d'accents et de modèles de parole. L'investissement contribuera à accélérer la croissance des données vocales publiques, à impliquer davantage de communautés et de bénévoles et à augmenter le nombre d'employés à temps plein du projet.

Rappelons que le projet Common Voice vise à organiser un travail commun pour accumuler une base de données de modèles vocaux prenant en compte la diversité des voix et des styles de parole. Les utilisateurs sont invités à exprimer des phrases affichées à l'écran ou à évaluer la qualité des données ajoutées par d'autres utilisateurs. La base de données accumulée contenant des enregistrements de diverses prononciations d'expressions typiques du discours humain peut être utilisée sans restrictions dans les systèmes d'apprentissage automatique et dans les projets de recherche.

L'ensemble Common Voice comprend actuellement des exemples de prononciation de plus de 164 9 personnes. Environ 60 1412 heures de données vocales ont été accumulées dans 111 langues différentes. L'ensemble pour la langue russe comprend 459 30 participants et 66 heures de matériel vocal, et pour la langue ukrainienne - 1686 participants et 0 heures. À titre de comparaison, plus de XNUMX XNUMX personnes ont participé à la préparation de documents en anglais, dictant XNUMX XNUMX heures de discours vérifié. Les ensembles proposés peuvent être utilisés dans les systèmes d’apprentissage automatique pour créer des modèles de reconnaissance et de synthèse vocales. Les données sont publiées dans le domaine public (CCXNUMX).

Selon l'auteur de la bibliothèque de reconnaissance vocale continue Vosk, les inconvénients de l'ensemble Common Voice sont le caractère unilatéral du matériel vocal (la prédominance des hommes de 20 à 30 ans et le manque de matériel avec les voix des femmes). , enfants et personnes âgées), le manque de variabilité du dictionnaire (répétition des mêmes phrases) et la diffusion des enregistrements au format MP3 déformant.

Source: opennet.ru

Ajouter un commentaire