A neurális hálózatok új szintre emelték az orosz beszédszintézis minőségét

A Sberbank ökoszisztémájához tartozó MDG vállalatcsoport bejelentette egy fejlett beszédszintézis platform kifejlesztését, amely állítólag bármilyen szöveg zökkenőmentes és kifejező olvasását biztosítja.

A bemutatott megoldás a beszédszintézis rendszer harmadik generációja. Kiváló minőségű hangjeleket állítanak elő összetett neurális hálózati modellek. A fejlesztők azt állítják, hogy ezeknek az algoritmusoknak az eredménye az orosz nyelvű beszéd legrealisztikusabb szintézise.

A neurális hálózatok új szintre emelték az orosz beszédszintézis minőségét

A platform tartalmaz egy modult az alapszótárban még nem szereplő szavak stresszének előrejelzésére. Ezenkívül a gyakori helyesírási hibák automatikus javítása is biztosított. A szöveg mély nyelvi elemzésének köszönhetően a kiejtés nehéz esetekben is megfelel a nyelvi normáknak.

A platform másik előnye, hogy nem igényel drága, GPU-gyorsítókkal felszerelt szervereket. A technológiát kétféleképpen használhatja: felhőszolgáltatáson keresztül vagy saját megoldásába integrálva.


A neurális hálózatok új szintre emelték az orosz beszédszintézis minőségét

A fejlesztés lehetséges alkalmazási területei között szerepelnek a chatbotok és hangasszisztensek, információs és értesítési szolgáltatások, bármilyen szöveg azonnali szintézisével hívás közbeni hangszolgáltatások stb.

„Az ügyfelekkel folytatott kommunikáció automatizált forgatókönyveiben a technológia lehetővé teszi, hogy minden egyes előfizetővel egyénileg kommunikáljunk, mivel nincsenek rögzített üzenetek, és a hívás során bármilyen szöveg szintetizálható” – mondják a fejlesztők.

Kipróbálhatod a technológiát itt



Forrás: 3dnews.ru

Hozzászólás