🥇Nouvelle version du système de synthèse vocale Silero

Une nouvelle version publique du système de synthèse vocale par réseau neuronal Silero Text-to-Speech est disponible. Le projet vise principalement à créer un système de synthèse vocale moderne et de haute qualité, comparable aux solutions commerciales des entreprises et accessible à tous sans nécessiter de serveur coûteux.

Les modèles sont distribués sous licence GNU AGPL, mais l'entreprise qui développe le projet ne divulgue pas le mécanisme d'entraînement des modèles. PyTorch et les frameworks prenant en charge le format ONNX peuvent être utilisés pour le lancement. La synthèse vocale dans Silero repose sur l'utilisation d'algorithmes de réseaux neuronaux modernes profondément modifiés et de méthodes de traitement du signal numérique.

Il est à noter que le principal problème des solutions modernes de réseaux neuronaux pour la synthèse vocale réside dans leur disponibilité limitée à des solutions cloud payantes, tandis que les produits publics ont des exigences matérielles élevées, sont de moindre qualité ou ne sont pas complets et prêts à l'emploi. Par exemple, pour lancer sans problème l'une des nouvelles architectures de synthèse de bout en bout populaires, VITS, en mode synthèse (c'est-à-dire hors modèles d'entraînement), des cartes vidéo de plus de 16 Go de VRAM sont nécessaires.

Contrairement à la tendance établie, les solutions Silero fonctionnent avec succès même sur un seul thread d'un processeur Intel x1 avec instructions AVX86. Sur quatre threads du processeur, la synthèse permet de synthétiser entre 2 et 4 secondes par seconde en mode 30 kHz, 60 à 8 secondes en mode 24 kHz et environ 15 secondes en mode 20 kHz.

Principales caractéristiques de la nouvelle version de Silero :

La taille du modèle a été réduite de 2 fois à 50 mégaoctets ;
Les mannequins savent faire une pause ;
Quatre voix russes de haute qualité disponibles (et un nombre infini de voix aléatoires). Exemples de prononciation ;
Les modèles sont devenus 10 fois plus rapides et, par exemple, en mode 24 kHz, ils permettent de synthétiser jusqu'à 20 secondes d'audio par seconde sur 4 threads de processeur ;
Toutes les options vocales pour une langue sont regroupées dans un seul modèle ;
Les modèles peuvent accepter des paragraphes entiers de texte en entrée, les balises SSML sont prises en charge ;
La synthèse fonctionne à trois fréquences d'échantillonnage à la fois : 8, 24 et 48 kilohertz ;
Les « problèmes des enfants » ont été résolus : instabilité et omissions de mots ;
Ajout d'indicateurs pour contrôler le placement automatique des marques de stress et le placement de la lettre « ё ».

Actuellement, 4 voix en russe sont disponibles publiquement pour la dernière version de la synthèse, mais dans un avenir proche, la prochaine version sera publiée avec les modifications suivantes :

La vitesse de synthèse augmentera encore de 2 à 4 fois ;
Les modèles de synthèse pour les langues de la CEI seront mis à jour : kalmouk, tatar, ouzbek et ukrainien ;
Des modèles pour les langues européennes seront ajoutés ;
Des modèles pour les langues indiennes seront ajoutés ;
Des modèles pour la langue anglaise seront ajoutés.

Certaines des pannes systémiques inhérentes à la synthèse de Silero sont :

Contrairement aux solutions de synthèse plus traditionnelles telles que RHVoice, la synthèse Silero ne propose pas d'intégration SAPI, de clients faciles à installer ni d'intégrations pour Windows и Android;
La vitesse, bien que sans précédent pour une telle solution, peut être insuffisante pour une synthèse à la volée sur des processeurs faibles en haute qualité ;
La solution de placement automatique de l'accent ne gère pas les homographes (mots comme zAmok et zamOk) et fait toujours des erreurs, mais cela sera corrigé dans les prochaines versions ;
La version actuelle de la synthèse ne fonctionne pas sur les processeurs sans instructions AVX2 (ou vous devez modifier spécifiquement les paramètres de PyTorch) car l'un des modules à l'intérieur du modèle est quantifié ;
La version actuelle de Synthesis repose essentiellement sur une seule dépendance à PyTorch ; tout le contenu est intégré au modèle et aux packages JIT. Les codes sources des modèles ne sont pas publiés, tout comme le code permettant de les exécuter depuis les clients PyTorch pour d'autres langages.
Libtorch, disponible pour les plateformes mobiles, est beaucoup plus lourd que l'environnement d'exécution ONNX, mais une version ONNX du modèle n'est pas encore fournie.

Source: opennet.ru