Les réseaux de neurones ont porté la qualité de la synthèse vocale russe à un nouveau niveau

Le groupe de sociétés MDG, qui fait partie de l'écosystème de la Sberbank, a annoncé le développement d'une plate-forme avancée de synthèse vocale, censée garantir une lecture fluide et expressive de n'importe quel texte.

La solution présentée est la troisième génération du système de synthèse vocale. Des signaux audio de haute qualité sont générés par des modèles de réseaux neuronaux complexes. Les développeurs affirment que le résultat de ces algorithmes est la synthèse la plus réaliste de la parole en langue russe.

Les réseaux de neurones ont porté la qualité de la synthèse vocale russe à un nouveau niveau

La plateforme comprend un module permettant de prédire l'accentuation des mots qui ne figurent pas encore dans le dictionnaire de base. De plus, une correction automatique des fautes d’orthographe courantes est fournie. Grâce à une analyse linguistique approfondie du texte, la prononciation correspondra aux normes de la langue même dans les cas difficiles.

Un autre avantage de la plateforme est qu’elle ne nécessite pas de serveurs coûteux équipés d’accélérateurs GPU. Vous pouvez utiliser la technologie de deux manières : via un service cloud ou en l'intégrant dans votre propre solution.


Les réseaux de neurones ont porté la qualité de la synthèse vocale russe à un nouveau niveau

Parmi les domaines d'application possibles du développement figurent les chatbots et les assistants vocaux, les services d'information et de notification, les services vocaux avec synthèse instantanée de n'importe quel texte lors d'un appel, etc.

"Dans les scénarios automatisés de communication avec les clients, la technologie vous permet d'interagir individuellement avec chaque abonné, car il n'y a pas de messages fixes et n'importe quel texte peut être synthétisé pendant l'appel", expliquent les développeurs.

Vous pouvez essayer la technologie ici



Source: 3dnews.ru

Ajouter un commentaire