A Sberbank ökoszisztéma SRT vállalatcsoportja bejelentette egy fejlett beszédszintézis platform fejlesztését, amely állítása szerint biztosítja bármilyen szöveg gördülékeny és kifejező felolvasását.
A bemutatott megoldás egy harmadik generációs beszédszintézis rendszer. Komplex neurális hálózati modellek kiváló minőségű hangjeleket állítanak elő. A fejlesztők azt állítják, hogy ezek az algoritmusok a legrealisztikusabb orosz nyelvű beszédszintézist állítják elő.

A platform tartalmaz egy hangsúly-előrejelző modult azokhoz a szavakhoz, amelyek még nem szerepelnek az alapszótárban. Automatikusan kijavítja a gyakori helyesírási hibákat is. A szöveg alapos nyelvi elemzésének köszönhetően a kiejtés még összetett esetekben is összhangban lesz a nyelvi szabványokkal.
A platform további előnye, hogy nem igényel drága szervereket, GPU-gyorsítókkal felszerelve. A technológia kétféleképpen használható: felhőszolgáltatáson keresztül vagy egyedi megoldásba integrálva.

A fejlesztés lehetséges alkalmazási területei közé tartoznak a chatbotok és hangasszisztensek, információs és értesítési szolgáltatások, valamint a hívás közben bármilyen szöveg azonnali szintézisét lehetővé tevő hangszolgáltatások stb.
„Automatizált ügyfélkommunikációs forgatókönyvekben a technológia lehetővé teszi az egyes előfizetőkkel való egyéni interakciót, mivel nincsenek fix üzenetek, és bármilyen szöveg szintetizálható a hívás során” – mondják a fejlesztők.
Kipróbálhatod a technológiát .
Forrás: 3dnews.ru
