Lanzamiento del sintetizador de voz RHVoice 1.6.0

Se lanzó el sistema abierto de síntesis de voz RHVoice 1.6.0, desarrollado inicialmente para brindar soporte de alta calidad para el idioma ruso, pero luego adaptado a otros idiomas, incluidos inglés, portugués, ucraniano, kirguís, tártaro y georgiano. El código está escrito en C++ y distribuido bajo la licencia LGPL 2.1. Soporta trabajo en GNU/Linux, Windows y Android. El programa es compatible con interfaces TTS (texto a voz) estándar para convertir texto a voz: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) y API Text-To-Speech de Android, pero también se puede utilizar en NVDA. lector de pantalla. La creadora y principal desarrolladora de RHVoice es Olga Yakovleva, quien desarrolla el proyecto a pesar de ser completamente ciega.

La nueva versión agrega 5 nuevas opciones de voz para el habla rusa. Se ha implementado soporte para el idioma albanés. Se ha actualizado el diccionario de la lengua ucraniana. Se ha ampliado la compatibilidad con la actuación de voz de personajes emoji. Se trabajó para eliminar errores en la aplicación para la plataforma Android, se simplificó la importación de diccionarios personalizados y se agregó soporte para la plataforma Android 11. Se agregaron nuevas configuraciones y funcionalidades al núcleo del motor, incluido g2p. case, word_break y soporte para filtros de ecualización.

Recordemos que RHVoice utiliza los desarrollos del proyecto HTS (HMM/DNN-based Speech Synthesis System) y el método de síntesis paramétrica con modelos estadísticos (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). La ventaja del modelo estadístico son los bajos costos generales y la poca potencia de CPU. Todas las operaciones se realizan localmente en el sistema del usuario. Se admiten tres niveles de calidad de voz (cuanto menor sea la calidad, mayor será el rendimiento y menor será el tiempo de reacción).

La desventaja del modelo estadístico es la calidad relativamente baja de la pronunciación, que no alcanza el nivel de los sintetizadores que generan el habla a partir de una combinación de fragmentos del habla natural, pero sin embargo el resultado es bastante legible y se asemeja a la transmisión de una grabación desde un altavoz. . En comparación, el proyecto Silero, que proporciona un motor abierto de síntesis de voz basado en tecnologías de aprendizaje automático y un conjunto de modelos para el idioma ruso, es superior en calidad a RHVoice.

Hay 13 opciones de voz disponibles para el idioma ruso y 5 para el inglés. Las voces se forman a partir de grabaciones del habla natural. En la configuración puedes cambiar la velocidad, el tono y el volumen. La biblioteca Sonic se puede utilizar para cambiar el tempo. Es posible detectar y cambiar automáticamente de idioma basándose en el análisis del texto de entrada (por ejemplo, para palabras y citas en otro idioma, se puede utilizar un modelo de síntesis nativo de ese idioma). Se admiten perfiles de voz, que definen combinaciones de voces para diferentes idiomas.

Fuente: opennet.ru

Añadir un comentario