El proyecto ChatTTS ha publicado un modelo y un conjunto de herramientas de aprendizaje automático asociado para la síntesis del habla emocional. El proyecto ChatTTS está optimizado específicamente para su uso en sistemas conversacionales, como asistentes interactivos, y tiene como objetivo reproducir las propiedades de la comunicación emocional natural. Se admite la interacción con múltiples oradores y la construcción de un diálogo interactivo. Los elementos prosódicos como risas, pausas e interjecciones se rastrean y reproducen correctamente durante la síntesis.
Al entrenar el modelo, se utilizaron alrededor de 40 mil horas de grabaciones de voz (en la versión no pública del modelo, 100 mil horas). Según los desarrolladores, las capacidades de generación de entonación del modelo son superiores a todos los modelos abiertos de síntesis de voz disponibles anteriormente. Para controlar las emociones durante la síntesis, actualmente solo se admite la sustitución de tokens, por ejemplo, "[risa]" para la risa. Para generar una grabación de 30 segundos se requiere una GPU con 4 GB de memoria. En la GPU NVIDIA GeForce RTX 4090D, la tasa de generación es de aproximadamente 7 tokens semánticos por segundo. Se admite la síntesis de voces femeninas y masculinas en inglés y chino (para el idioma ruso podemos recomendar el marco TTS y el modelo XTTS-v2, que además de la síntesis admiten la clonación de voz a partir de una grabación de voz breve, incluso para la síntesis en otro idioma). ).
El modelo ChatTTS se publica bajo una licencia CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0), que permite la redistribución gratuita con atribución, pero prohíbe la creación de trabajos derivados y su uso en proyectos comerciales. Además, para proteger contra el uso del modelo para cometer actos fraudulentos y delictivos, durante el entrenamiento del modelo se utilizó la sustitución del ruido de alta frecuencia y se utilizó el nivel máximo de compresión de audio utilizando el formato MP3.
Fuente: opennet.ru
