Sortie du synthétiseur vocal RHVoice 1.8.0

Le système ouvert de synthèse vocale RHVoice 1.8.0 a été lancé, initialement développé pour fournir un support de haute qualité pour la langue russe, mais ensuite adapté à d'autres langues, notamment l'anglais, le portugais, l'ukrainien, le kirghize, le tatar et le géorgien. Le code est écrit en C++ et distribué sous licence LGPL 2.1. Prend en charge le travail sur GNU/Linux, Windows et Android. Le programme est compatible avec les interfaces TTS (text-to-speech) standard pour convertir du texte en parole : SAPI5 (Windows), Speech Dispatcher (GNU/Linux) et Android Text-To-Speech API, mais peut également être utilisé dans NVDA. Lecteur d'écran. La créatrice et principale développeuse de RHVoice est Olga Yakovleva, qui développe le projet bien qu'elle soit complètement aveugle.

La version 1.8 pour la plateforme Android introduit un nouveau système de gestion des données vocales et linguistiques qui permet de télécharger les mises à jour des données vocales sans mettre à jour l'application mobile. Les mises à jour des données pour les voix et langues ajoutées sont vérifiées automatiquement. De plus, la nouvelle version introduit la prise en charge de la langue polonaise et ajoute une nouvelle voix pour la langue macédonienne. La compatibilité avec les dernières versions alpha et bêta du lecteur d'écran NVDA est assurée. Correction de problèmes de construction sur la plate-forme Linux survenus lorsque Speech Dispatcher n'était pas présent.

Rappelons que RHVoice utilise les développements du projet HTS (HMM/DNN-based Speech Synthesis System) et la méthode de synthèse paramétrique avec modèles statistiques (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). L'avantage du modèle statistique réside dans de faibles frais généraux et une puissance CPU peu exigeante. Toutes les opérations sont effectuées localement sur le système de l'utilisateur. Trois niveaux de qualité vocale sont pris en charge (plus la qualité est faible, plus les performances sont élevées et plus le temps de réaction est court).

L'inconvénient du modèle statistique est la qualité de prononciation relativement faible, qui n'atteint pas le niveau des synthétiseurs qui génèrent de la parole à partir d'une combinaison de fragments de parole naturelle, mais le résultat est néanmoins assez lisible et ressemble à la diffusion d'un enregistrement à partir d'un haut-parleur. . À titre de comparaison, le projet Silero, qui fournit un moteur de synthèse vocale ouvert basé sur des technologies d'apprentissage automatique et un ensemble de modèles pour la langue russe, est supérieur en qualité à RHVoice.

Il existe 14 options vocales disponibles pour la langue russe et 6 pour l'anglais. Les voix sont formées sur la base d'enregistrements de parole naturelle. Dans les paramètres, vous pouvez modifier la vitesse, la hauteur et le volume. La bibliothèque Sonic peut être utilisée pour modifier le tempo. Il est possible de détecter et de changer automatiquement de langue en fonction de l'analyse du texte saisi (par exemple, pour les mots et les citations dans une autre langue, un modèle de synthèse natif de cette langue peut être utilisé). Les profils vocaux sont pris en charge, définissant des combinaisons de voix pour différentes langues.

Source: opennet.ru

Ajouter un commentaire