As redes neuronais levaron a calidade da síntese de fala rusa a un novo nivel

O grupo de empresas MDG, que forma parte do ecosistema Sberbank, anunciou o desenvolvemento dunha plataforma avanzada de síntese de voz, que se di que garante unha lectura fluida e expresiva de calquera texto.

A solución presentada é a terceira xeración do sistema de síntese de voz. Os sinais de audio de alta calidade son xerados por modelos complexos de redes neuronais. Os desenvolvedores afirman que o resultado destes algoritmos é a síntese máis realista da fala en ruso.

As redes neuronais levaron a calidade da síntese de fala rusa a un novo nivel

A plataforma inclúe un módulo para predicir a tensión en palabras que aínda non están no dicionario base. Ademais, ofrécese a corrección automática dos erros ortográficos comúns. Grazas a unha profunda análise lingüística do texto, a pronuncia corresponderase ás normas da lingua mesmo en casos difíciles.

Outra vantaxe da plataforma é que non precisa de servidores caros equipados con aceleradores de GPU. Podes usar a tecnoloxía de dúas formas: a través dun servizo na nube ou integrándoa na túa propia solución.


As redes neuronais levaron a calidade da síntese de fala rusa a un novo nivel

Entre as posibles áreas de aplicación do desenvolvemento están os chatbots e asistentes de voz, servizos de información e notificación, servizos de voz con síntese instantánea de calquera texto durante unha chamada, etc.

"En escenarios automatizados de comunicación cos clientes, a tecnoloxía permite interactuar individualmente con cada abonado, xa que non hai mensaxes fixas, e durante a chamada pódese sintetizar calquera texto", sinalan os desenvolvedores.

Podes probar a tecnoloxía aquí



Fonte: 3dnews.ru

Engadir un comentario