Les xarxes neuronals han portat la qualitat de la síntesi de la parla russa a un nou nivell

El grup d'empreses MDG, part de l'ecosistema Sberbank, va anunciar el desenvolupament d'una plataforma avançada de síntesi de veu, que es diu que garanteix una lectura fluida i expressiva de qualsevol text.

La solució presentada és la tercera generació del sistema de síntesi de veu. Els senyals d'àudio d'alta qualitat es generen mitjançant models complexos de xarxes neuronals. Els desenvolupadors afirmen que el resultat d'aquests algorismes és la síntesi més realista de la parla en rus.

Les xarxes neuronals han portat la qualitat de la síntesi de la parla russa a un nou nivell

La plataforma inclou un mòdul per predir l'estrès en paraules que encara no estan al diccionari base. A més, es proporciona la correcció automàtica dels errors ortogràfics habituals. Gràcies a una profunda anàlisi lingüística del text, la pronunciació correspondrà a les normes de la llengua fins i tot en casos difícils.

Un altre avantatge de la plataforma és que no requereix servidors cars equipats amb acceleradors de GPU. Podeu utilitzar la tecnologia de dues maneres: mitjançant un servei al núvol o integrant-lo a la vostra pròpia solució.


Les xarxes neuronals han portat la qualitat de la síntesi de la parla russa a un nou nivell

Entre les possibles àrees d'aplicació del desenvolupament es troben els chatbots i assistents de veu, serveis d'informació i notificació, serveis de veu amb síntesi instantània de qualsevol text durant una trucada, etc.

“En escenaris automatitzats de comunicació amb clients, la tecnologia permet interactuar individualment amb cada subscriptor, ja que no hi ha missatges fixos, i es pot sintetitzar qualsevol text durant la trucada”, asseguren els desenvolupadors.

Podeu provar la tecnologia aquí



Font: 3dnews.ru

Afegeix comentari