MDG-gruppen af virksomheder, en del af Sberbank-økosystemet, annoncerede udviklingen af en avanceret talesynteseplatform, som siges at sikre jævn og udtryksfuld læsning af enhver tekst.
Den præsenterede løsning er tredje generation af talesyntesesystemet. Lydsignaler af høj kvalitet genereres af komplekse neurale netværksmodeller. Udviklerne hævder, at resultatet af disse algoritmer er den mest realistiske syntese af russisk-sproget tale.
Platformen indeholder et modul til at forudsige stress i ord, der endnu ikke er i basisordbogen. Derudover er der automatisk rettelse af almindelige stavefejl. Takket være dyb sproglig analyse af teksten vil udtalen svare til sprogets normer selv i vanskelige tilfælde.
En anden fordel ved platformen er, at den ikke kræver dyre servere udstyret med GPU-acceleratorer. Du kan bruge teknologien på to måder: gennem en cloud-tjeneste eller ved at integrere den i din egen løsning.
Blandt de mulige anvendelsesområder for udviklingen er chatbots og stemmeassistenter, informations- og notifikationstjenester, taletjenester med øjeblikkelig syntese af enhver tekst under et opkald osv.
"I automatiserede scenarier for kommunikation med klienter giver teknologien dig mulighed for at interagere individuelt med hver abonnent, da der ikke er nogen faste beskeder, og enhver tekst kan syntetiseres under opkaldet," siger udviklerne.
Du kan prøve teknologien
Kilde: 3dnews.ru