Neurale netwerken hebben de kwaliteit van de Russische spraaksynthese naar een nieuw niveau gebracht

De MDG-bedrijvengroep, onderdeel van het Sberbank-ecosysteem, heeft de ontwikkeling aangekondigd van een geavanceerd spraaksyntheseplatform, dat een soepele en expressieve lezing van elke tekst zou garanderen.

De gepresenteerde oplossing is de derde generatie van het spraaksynthesesysteem. Hoogwaardige audiosignalen worden gegenereerd door complexe neurale netwerkmodellen. De ontwikkelaars beweren dat het resultaat van deze algoritmen de meest realistische synthese van Russischtalige spraak is.

Neurale netwerken hebben de kwaliteit van de Russische spraaksynthese naar een nieuw niveau gebracht

Het platform bevat een module voor het voorspellen van klemtoon in woorden die nog niet in het basiswoordenboek voorkomen. Bovendien wordt automatische correctie van veelvoorkomende spelfouten geboden. Dankzij een diepgaande taalkundige analyse van de tekst zal de uitspraak zelfs in moeilijke gevallen overeenkomen met de normen van de taal.

Een ander voordeel van het platform is dat er geen dure servers nodig zijn die zijn uitgerust met GPU-versnellers. Je kunt de technologie op twee manieren gebruiken: via een clouddienst of door deze te integreren in je eigen oplossing.


Neurale netwerken hebben de kwaliteit van de Russische spraaksynthese naar een nieuw niveau gebracht

Tot de mogelijke toepassingsgebieden van de ontwikkeling behoren chatbots en stemassistenten, informatie- en notificatiediensten, spraakdiensten met onmiddellijke synthese van elke tekst tijdens een gesprek, enz.

"In geautomatiseerde communicatiescenario's met klanten stelt de technologie je in staat om individueel met elke abonnee te communiceren, omdat er geen vaste berichten zijn en elke tekst tijdens het gesprek kan worden samengesteld", zeggen de ontwikkelaars.

Je kunt de technologie proberen hier



Bron: 3dnews.ru

Voeg een reactie