El grup d'empreses MDG, part de l'ecosistema Sberbank, va anunciar el desenvolupament d'una plataforma avançada de síntesi de veu, que es diu que garanteix una lectura fluida i expressiva de qualsevol text.
La solució presentada és la tercera generació del sistema de síntesi de veu. Els senyals d'àudio d'alta qualitat es generen mitjançant models complexos de xarxes neuronals. Els desenvolupadors afirmen que el resultat d'aquests algorismes és la síntesi més realista de la parla en rus.
La plataforma inclou un mòdul per predir l'estrès en paraules que encara no estan al diccionari base. A més, es proporciona la correcció automàtica dels errors ortogràfics habituals. Gràcies a una profunda anàlisi lingüística del text, la pronunciació correspondrà a les normes de la llengua fins i tot en casos difícils.
Un altre avantatge de la plataforma és que no requereix servidors cars equipats amb acceleradors de GPU. Podeu utilitzar la tecnologia de dues maneres: mitjançant un servei al núvol o integrant-lo a la vostra pròpia solució.
Entre les possibles àrees d'aplicació del desenvolupament es troben els chatbots i assistents de veu, serveis d'informació i notificació, serveis de veu amb síntesi instantània de qualsevol text durant una trucada, etc.
“En escenaris automatitzats de comunicació amb clients, la tecnologia permet interactuar individualment amb cada subscriptor, ja que no hi ha missatges fixos, i es pot sintetitzar qualsevol text durant la trucada”, asseguren els desenvolupadors.
Podeu provar la tecnologia
Font: 3dnews.ru