RHVoice 1.8.0 sékrési synthesizer ucapan

Sistem sintésis ucapan terbuka RHVoice 1.8.0 dileupaskeun, mimitina dikembangkeun pikeun nyayogikeun dukungan kualitas luhur pikeun basa Rusia, tapi teras diadaptasi pikeun basa sanés, kalebet Inggris, Portugis, Ukrania, Kyrgyz, Tatar sareng Georgia. Kodeu ditulis dina C ++ sarta disebarkeun dina LGPL 2.1 lisénsi. Ngarojong gawé dina GNU/Linux, Windows jeung Android. Program ieu cocog sareng antarmuka standar TTS (text-to-speech) pikeun ngarobih téks kana ucapan: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) sareng Android Text-To-Speech API, tapi ogé tiasa dianggo dina NVDA. maca layar. Panyipta sareng pamekar utama RHVoice nyaéta Olga Yakovleva, anu ngembangkeun proyék sanaos buta lengkep.

Vérsi 1.8 pikeun platform Android ngenalkeun sistem manajemén data sora sareng basa énggal anu ngamungkinkeun anjeun pikeun ngaunduh apdet data sora tanpa ngapdet aplikasi sélulér. Pembaruan data pikeun sora sareng basa anu ditambahan dipariksa sacara otomatis. Salaku tambahan, rilis énggal ngenalkeun dukungan pikeun basa Polandia sareng nambihan sora énggal pikeun basa Makédonia. Kasaluyuan sareng sékrési alfa sareng béta panganyarna tina pamaca layar NVDA dipastikeun. Ngalereskeun masalah sareng ngawangun dina platform Linux anu lumangsung nalika Speech Dispatcher teu aya.

Hayu urang émut yén RHVoice ngagunakeun pamekaran proyék HTS (Sistem Sintésis Biantara dumasar HMM/DNN) sareng metode sintésis paramétrik sareng modél statistik (Sintesis Paramétrik Statistik dumasar kana HMM - Modél Markov Hidden). Kauntungannana model statistik nyaeta waragad overhead low jeung kakuatan CPU undemanding. Sadaya operasi dilaksanakeun sacara lokal dina sistem pangguna. Tilu tingkat kualitas ucapan dirojong (nu handap kualitas, nu leuwih luhur kinerja jeung pondok waktu réaksi).

Kelemahan model statistik nyaéta kualitas lafal anu kawilang rendah, anu henteu ngahontal tingkat sintésis anu ngahasilkeun ucapan dumasar kana kombinasi fragmen ucapan alami, tapi hasilna cukup kabaca sareng nyarupaan nyiarkeun rékaman tina spiker. . Pikeun babandingan, proyék Silero, anu nyayogikeun mesin sintésis ucapan kabuka dumasar kana téknologi pembelajaran mesin sareng sakumpulan modél basa Rusia, langkung unggul dina kualitas pikeun RHVoice.

Aya 14 pilihan sora sadia pikeun basa Rusia, jeung 6 pikeun basa Inggris. Sora nu kabentuk dumasar kana rekaman ucapan alam. Dina setélan anjeun tiasa ngarobih laju, nada sareng volume. Perpustakaan Sonic tiasa dianggo pikeun ngarobih témpo. Kasebut nyaéta dimungkinkeun pikeun otomatis ngadeteksi sareng ngalih basa dumasar kana analisa téks input (contona, pikeun kecap sareng tanda petik dina basa sanés, modél sintésis asli tina basa éta tiasa dianggo). Propil sora dirojong, nangtukeun kombinasi sora pikeun basa béda.

sumber: opennet.ru

Tambahkeun komentar