A Sberbank ökoszisztémájához tartozó MDG vállalatcsoport bejelentette egy fejlett beszédszintézis platform kifejlesztését, amely állítólag bármilyen szöveg zökkenőmentes és kifejező olvasását biztosítja.
A bemutatott megoldás a beszédszintézis rendszer harmadik generációja. Kiváló minőségű hangjeleket állítanak elő összetett neurális hálózati modellek. A fejlesztők azt állítják, hogy ezeknek az algoritmusoknak az eredménye az orosz nyelvű beszéd legrealisztikusabb szintézise.
A platform tartalmaz egy modult az alapszótárban még nem szereplő szavak stresszének előrejelzésére. Ezenkívül a gyakori helyesírási hibák automatikus javítása is biztosított. A szöveg mély nyelvi elemzésének köszönhetően a kiejtés nehéz esetekben is megfelel a nyelvi normáknak.
A platform másik előnye, hogy nem igényel drága, GPU-gyorsítókkal felszerelt szervereket. A technológiát kétféleképpen használhatja: felhőszolgáltatáson keresztül vagy saját megoldásába integrálva.
A fejlesztés lehetséges alkalmazási területei között szerepelnek a chatbotok és hangasszisztensek, információs és értesítési szolgáltatások, bármilyen szöveg azonnali szintézisével hívás közbeni hangszolgáltatások stb.
„Az ügyfelekkel folytatott kommunikáció automatizált forgatókönyveiben a technológia lehetővé teszi, hogy minden egyes előfizetővel egyénileg kommunikáljunk, mivel nincsenek rögzített üzenetek, és a hívás során bármilyen szöveg szintetizálható” – mondják a fejlesztők.
Kipróbálhatod a technológiát
Forrás: 3dnews.ru