Lanzamiento del sintetizador de voz RHVoice 1.8.0

Se lanzó el sistema abierto de síntesis de voz RHVoice 1.8.0, desarrollado inicialmente para brindar soporte de alta calidad para el idioma ruso, pero luego adaptado a otros idiomas, incluidos inglés, portugués, ucraniano, kirguís, tártaro y georgiano. El código está escrito en C++ y distribuido bajo la licencia LGPL 2.1. Soporta trabajo en GNU/Linux, Windows y Android. El programa es compatible con interfaces TTS (texto a voz) estándar para convertir texto a voz: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) y API Text-To-Speech de Android, pero también se puede utilizar en NVDA. lector de pantalla. La creadora y principal desarrolladora de RHVoice es Olga Yakovleva, quien desarrolla el proyecto a pesar de ser completamente ciega.

La versión 1.8 para la plataforma Android introduce un nuevo sistema de gestión de datos de voz e idioma que permite descargar actualizaciones de datos de voz sin actualizar la aplicación móvil. Las actualizaciones de datos para voces e idiomas agregados se verifican automáticamente. Además, la nueva versión introduce soporte para el idioma polaco y agrega una nueva voz para el idioma macedonio. Se garantiza la compatibilidad con las últimas versiones alfa y beta del lector de pantalla NVDA. Se solucionaron problemas con la compilación en la plataforma Linux que ocurrían cuando Speech Dispatcher no estaba presente.

Recordemos que RHVoice utiliza los desarrollos del proyecto HTS (HMM/DNN-based Speech Synthesis System) y el método de síntesis paramétrica con modelos estadísticos (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). La ventaja del modelo estadístico son los bajos costos generales y la poca potencia de CPU. Todas las operaciones se realizan localmente en el sistema del usuario. Se admiten tres niveles de calidad de voz (cuanto menor sea la calidad, mayor será el rendimiento y menor será el tiempo de reacción).

La desventaja del modelo estadístico es la calidad relativamente baja de la pronunciación, que no alcanza el nivel de los sintetizadores que generan el habla a partir de una combinación de fragmentos del habla natural, pero sin embargo el resultado es bastante legible y se asemeja a la transmisión de una grabación desde un altavoz. . En comparación, el proyecto Silero, que proporciona un motor abierto de síntesis de voz basado en tecnologías de aprendizaje automático y un conjunto de modelos para el idioma ruso, es superior en calidad a RHVoice.

Hay 14 opciones de voz disponibles para el idioma ruso y 6 para el inglés. Las voces se forman a partir de grabaciones del habla natural. En la configuración puedes cambiar la velocidad, el tono y el volumen. La biblioteca Sonic se puede utilizar para cambiar el tempo. Es posible detectar y cambiar automáticamente de idioma basándose en el análisis del texto de entrada (por ejemplo, para palabras y citas en otro idioma, se puede utilizar un modelo de síntesis nativo de ese idioma). Se admiten perfiles de voz, que definen combinaciones de voces para diferentes idiomas.

Fuente: opennet.ru

Añadir un comentario