Skupina společností MDG, která je součástí ekosystému Sberbank, oznámila vývoj pokročilé platformy pro syntézu řeči, která má zajistit plynulé a výrazné čtení jakéhokoli textu.
Prezentované řešení je třetí generací systému syntézy řeči. Vysoce kvalitní audio signály jsou generovány komplexními modely neuronových sítí. Vývojáři tvrdí, že výsledkem těchto algoritmů je nejrealističtější syntéza ruskojazyčné řeči.
Platforma obsahuje modul pro predikci stresu ve slovech, která ještě nejsou v základním slovníku. Kromě toho je poskytována automatická oprava běžných pravopisných chyb. Díky hluboké lingvistické analýze textu bude výslovnost odpovídat normám jazyka i v obtížných případech.
Další výhodou platformy je, že nevyžaduje drahé servery vybavené GPU akcelerátory. Technologii můžete využít dvěma způsoby: prostřednictvím cloudové služby nebo integrací do vlastního řešení.
Mezi možné oblasti uplatnění vývoje patří chatboti a hlasoví asistenti, informační a notifikační služby, hlasové služby s okamžitou syntézou libovolného textu během hovoru atd.
„V automatizovaných scénářích komunikace s klienty vám tato technologie umožňuje komunikovat individuálně s každým předplatitelem, protože neexistují žádné pevné zprávy a během hovoru lze syntetizovat jakýkoli text,“ říkají vývojáři.
Technologii si můžete vyzkoušet
Zdroj: 3dnews.ru