Le reti neurali hanno portato la qualità della sintesi vocale russa a un nuovo livello

Il gruppo di società MDG, parte dell'ecosistema Sberbank, ha annunciato lo sviluppo di una piattaforma avanzata di sintesi vocale, che si dice garantirà una lettura fluida ed espressiva di qualsiasi testo.

La soluzione presentata è la terza generazione del sistema di sintesi vocale. I segnali audio di alta qualità sono generati da complessi modelli di rete neurale. Gli sviluppatori affermano che il risultato di questi algoritmi è la sintesi più realistica del discorso in lingua russa.

Le reti neurali hanno portato la qualità della sintesi vocale russa a un nuovo livello

La piattaforma include un modulo per prevedere lo stress in parole che non sono ancora presenti nel dizionario di base. Inoltre, viene fornita la correzione automatica degli errori di ortografia comuni. Grazie ad una profonda analisi linguistica del testo, la pronuncia corrisponderà alle norme della lingua anche nei casi difficili.

Un altro vantaggio della piattaforma è che non richiede server costosi dotati di acceleratori GPU. Puoi utilizzare la tecnologia in due modi: tramite un servizio cloud o integrandola nella tua soluzione.


Le reti neurali hanno portato la qualità della sintesi vocale russa a un nuovo livello

Tra i possibili ambiti di applicazione dello sviluppo figurano chatbot e assistenti vocali, servizi di informazione e notifica, servizi vocali con sintesi istantanea di qualsiasi testo durante una chiamata, ecc.

"Negli scenari automatizzati di comunicazione con i clienti, la tecnologia consente di interagire individualmente con ciascun abbonato, poiché non ci sono messaggi fissi e qualsiasi testo può essere sintetizzato durante la chiamata", affermano gli sviluppatori.

Puoi provare la tecnologia qui



Fonte: 3dnews.ru

Aggiungi un commento