Las redes neuronales han llevado la calidad de la síntesis de voz rusa a un nuevo nivel

El grupo de empresas MDG, que forma parte del ecosistema Sberbank, anunció el desarrollo de una plataforma avanzada de síntesis de voz, que supuestamente garantiza una lectura fluida y expresiva de cualquier texto.

La solución presentada es la tercera generación del sistema de síntesis de voz. Las señales de audio de alta calidad se generan mediante modelos complejos de redes neuronales. Los desarrolladores afirman que el resultado de estos algoritmos es la síntesis más realista del habla en ruso.

Las redes neuronales han llevado la calidad de la síntesis de voz rusa a un nuevo nivel

La plataforma incluye un módulo para predecir el acento en palabras que aún no están en el diccionario base. Además, se proporciona corrección automática de errores ortográficos comunes. Gracias a un análisis lingüístico profundo del texto, la pronunciación corresponderá a las normas del idioma incluso en casos difíciles.

Otra ventaja de la plataforma es que no requiere servidores costosos equipados con aceleradores GPU. Puedes utilizar la tecnología de dos formas: a través de un servicio en la nube o integrándola en tu propia solución.


Las redes neuronales han llevado la calidad de la síntesis de voz rusa a un nuevo nivel

Entre las posibles áreas de aplicación del desarrollo se encuentran chatbots y asistentes de voz, servicios de información y notificación, servicios de voz con síntesis instantánea de cualquier texto durante una llamada, etc.

“En escenarios automatizados de comunicación con clientes, la tecnología permite interactuar individualmente con cada suscriptor, ya que no hay mensajes fijos y durante la llamada se puede sintetizar cualquier texto”, dicen los desarrolladores.

Puedes probar la tecnología. aquí



Fuente: 3dnews.ru

Añadir un comentario