S'ha publicat RHVoice 1.8.0, un sistema de síntesi de veu de codi obert. Inicialment desenvolupat per proporcionar suport d'alta qualitat per al rus, s'ha adaptat posteriorment a altres idiomes, com ara l'anglès, el portuguès, l'ucraïnès, el kirguís, el tàrtar i el georgià. El codi està escrit en C++ i es distribueix sota la llicència LGPL 2.1. També s'admet el suport de GNU/Linux.Linux, Windows и AndroidEl programa és compatible amb les interfícies TTS (text-to-speech) típiques per convertir text a veu: SAPI5 (Windows), Despatxador de veu (GNU/Linux) I Android API de text a veu, però també es pot utilitzar amb el lector de pantalla NVDA. La creadora i desenvolupadora principal de RHVoice és Olga Yakovleva, que continua desenvolupant el projecte tot i ser completament cega.
A la versió 1.8 per a la plataforma Android S'ha introduït un nou sistema de gestió de dades de veu i idiomes, que permet descarregar actualitzacions de dades de veu sense actualitzar l'aplicació mòbil. Les actualitzacions per a les veus i els idiomes recentment afegits es comproven automàticament. A més, la nova versió afegeix compatibilitat amb el polonès i una nova veu macedònia. S'ha assegurat la compatibilitat amb les darreres versions alfa i beta del lector de pantalla NVDA. S'han resolt els problemes de compilació de la plataforma. Linux, que va ocórrer quan no hi havia cap dispensador de veu.
Recordem que RHVoice utilitza els desenvolupaments del projecte HTS (HMM/DNN-based Speech Synthesis System) i el mètode de síntesi paramètrica amb models estadístics (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). L'avantatge del model estadístic són els baixos costos generals i la potència de la CPU poc exigent. Totes les operacions es realitzen localment al sistema de l'usuari. S'admeten tres nivells de qualitat de la parla (com més baixa és la qualitat, més alt és el rendiment i més curt és el temps de reacció).
L'inconvenient del model estadístic és la qualitat relativament baixa de la pronunciació, que no arriba al nivell de sintetitzadors que generen parla a partir d'una combinació de fragments de parla natural, però tanmateix el resultat és força llegible i s'assembla a la difusió d'un enregistrament des d'un altaveu. . Per comparar, el projecte Silero, que proporciona un motor de síntesi de veu obert basat en tecnologies d'aprenentatge automàtic i un conjunt de models per a l'idioma rus, és de qualitat superior a RHVoice.
Hi ha 14 opcions de veu disponibles per a l'idioma rus i 6 per a l'anglès. Les veus es formen a partir d'enregistraments de parla natural. A la configuració podeu canviar la velocitat, el to i el volum. La biblioteca de Sonic es pot utilitzar per canviar el tempo. És possible detectar i canviar d'idioma automàticament basant-se en l'anàlisi del text d'entrada (per exemple, per a paraules i cometes en un altre idioma, es pot utilitzar un model de síntesi propi d'aquest idioma). S'admeten perfils de veu, que defineixen combinacions de veus per a diferents idiomes.
Font: opennet.ru
