Lanzamento do sintetizador de voz RHVoice 1.8.0

Lanzouse o sistema de síntese de voz aberto RHVoice 1.8.0, desenvolvido inicialmente para ofrecer soporte de alta calidade para o idioma ruso, pero logo adaptado para outros idiomas, incluíndo inglés, portugués, ucraíno, quirguiso, tártaro e xeorxiano. O código está escrito en C++ e distribúese baixo a licenza LGPL 2.1. Admite traballos en GNU/Linux, Windows e Android. O programa é compatible coas interfaces estándar TTS (text-to-speech) para converter texto en voz: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) e Android Text-to-Speech API, pero tamén se pode usar no NVDA lector de pantalla. A creadora e desenvolvedora principal de RHVoice é Olga Yakovleva, que desenvolve o proxecto a pesar de estar completamente cega.

A versión 1.8 para a plataforma Android introduce un novo sistema de xestión de datos de voz e idioma que che permite descargar actualizacións de datos de voz sen actualizar a aplicación móbil. As actualizacións de datos para as voces e os idiomas engadidos compróbanse automaticamente. Ademais, a nova versión introduce soporte para o idioma polaco e engade unha nova voz para o idioma macedonio. A compatibilidade coas últimas versións alfa e beta do lector de pantalla NVDA está garantida. Solucionáronse problemas coa creación na plataforma Linux que se producían cando Speech Dispatcher non estaba presente.

Lembremos que RHVoice utiliza os desenvolvementos do proxecto HTS (Sistema de síntese da fala baseado en HMM/DNN) e o método de síntese paramétrica con modelos estatísticos (Sintesis paramétrica estatística baseada en HMM - Hidden Markov Model). A vantaxe do modelo estatístico son os baixos custos xerais e a pouca potencia da CPU. Todas as operacións realízanse localmente no sistema do usuario. Admítense tres niveis de calidade da voz (canto menor sexa a calidade, maior será o rendemento e menor será o tempo de reacción).

A desvantaxe do modelo estatístico é a relativamente baixa calidade da pronuncia, que non alcanza o nivel de sintetizadores que xeran fala a partir dunha combinación de fragmentos de fala natural, pero con todo o resultado é bastante lexible e aseméllase á emisión dunha gravación desde un altofalante. . A modo de comparación, o proxecto Silero, que proporciona un motor de síntese de voz aberto baseado en tecnoloxías de aprendizaxe automática e un conxunto de modelos para a lingua rusa, é superior en calidade a RHVoice.

Hai 14 opcións de voz dispoñibles para o idioma ruso e 6 para o inglés. As voces fórmanse a partir de gravacións de fala natural. Na configuración pode cambiar a velocidade, o ton e o volume. A biblioteca de Sonic pódese usar para cambiar o tempo. É posible detectar e cambiar de idioma automaticamente en función da análise do texto introducido (por exemplo, para palabras e citas noutro idioma, pódese utilizar un modelo de síntese nativo dese idioma). Admítense os perfís de voz, que definen combinacións de voces para diferentes idiomas.

Fonte: opennet.ru

Engadir un comentario