Sortie du synthétiseur vocal RHVoice 1.6.0

Le système ouvert de synthèse vocale RHVoice 1.6.0 a été lancé, initialement développé pour fournir un support de haute qualité pour la langue russe, mais ensuite adapté à d'autres langues, notamment l'anglais, le portugais, l'ukrainien, le kirghize, le tatar et le géorgien. Le code est écrit en C++ et distribué sous licence LGPL 2.1. Prend en charge le travail sur GNU/Linux, Windows et Android. Le programme est compatible avec les interfaces TTS (text-to-speech) standard pour convertir du texte en parole : SAPI5 (Windows), Speech Dispatcher (GNU/Linux) et Android Text-To-Speech API, mais peut également être utilisé dans NVDA. Lecteur d'écran. La créatrice et principale développeuse de RHVoice est Olga Yakovleva, qui développe le projet bien qu'elle soit complètement aveugle.

La nouvelle version ajoute 5 nouvelles options vocales pour la parole russe. La prise en charge de la langue albanaise a été mise en œuvre. Le dictionnaire de la langue ukrainienne a été mis à jour. La prise en charge du doublage des personnages emoji a été étendue. Des travaux ont été effectués pour éliminer les erreurs dans l'application pour la plate-forme Android, l'importation de dictionnaires personnalisés a été simplifiée et la prise en charge de la plate-forme Android 11 a été ajoutée. De nouveaux paramètres et fonctionnalités ont été ajoutés au noyau du moteur, notamment g2p. case, word_break et prise en charge des filtres d'égalisation.

Rappelons que RHVoice utilise les développements du projet HTS (HMM/DNN-based Speech Synthesis System) et la méthode de synthèse paramétrique avec modèles statistiques (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). L'avantage du modèle statistique réside dans de faibles frais généraux et une puissance CPU peu exigeante. Toutes les opérations sont effectuées localement sur le système de l'utilisateur. Trois niveaux de qualité vocale sont pris en charge (plus la qualité est faible, plus les performances sont élevées et plus le temps de réaction est court).

L'inconvénient du modèle statistique est la qualité de prononciation relativement faible, qui n'atteint pas le niveau des synthétiseurs qui génèrent de la parole à partir d'une combinaison de fragments de parole naturelle, mais le résultat est néanmoins assez lisible et ressemble à la diffusion d'un enregistrement à partir d'un haut-parleur. . À titre de comparaison, le projet Silero, qui fournit un moteur de synthèse vocale ouvert basé sur des technologies d'apprentissage automatique et un ensemble de modèles pour la langue russe, est supérieur en qualité à RHVoice.

Il existe 13 options vocales disponibles pour la langue russe et 5 pour l'anglais. Les voix sont formées sur la base d'enregistrements de parole naturelle. Dans les paramètres, vous pouvez modifier la vitesse, la hauteur et le volume. La bibliothèque Sonic peut être utilisée pour modifier le tempo. Il est possible de détecter et de changer automatiquement de langue en fonction de l'analyse du texte saisi (par exemple, pour les mots et les citations dans une autre langue, un modèle de synthèse natif de cette langue peut être utilisé). Les profils vocaux sont pris en charge, définissant des combinaisons de voix pour différentes langues.

Source: opennet.ru

Ajouter un commentaire