RHVoice 1.6.0 sékrési synthesizer ucapan

Sistem sintésis ucapan terbuka RHVoice 1.6.0 dileupaskeun, mimitina dikembangkeun pikeun nyayogikeun dukungan kualitas luhur pikeun basa Rusia, tapi teras diadaptasi pikeun basa sanés, kalebet Inggris, Portugis, Ukrania, Kyrgyz, Tatar sareng Georgia. Kodeu ditulis dina C ++ sarta disebarkeun dina LGPL 2.1 lisénsi. Ngarojong gawé dina GNU/Linux, Windows jeung Android. Program ieu cocog sareng antarmuka standar TTS (text-to-speech) pikeun ngarobih téks kana ucapan: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) sareng Android Text-To-Speech API, tapi ogé tiasa dianggo dina NVDA. maca layar. Panyipta sareng pamekar utama RHVoice nyaéta Olga Yakovleva, anu ngembangkeun proyék sanaos buta lengkep.

Versi anyar nambihan 5 pilihan sora anyar pikeun pidato Rusia. Pangrojong basa Albania parantos dilaksanakeun. Kamus basa Ukrania parantos diropéa. Rojongan pikeun akting sora karakter emoji geus dimekarkeun. Usaha parantos dilakukeun pikeun ngaleungitkeun kasalahan dina aplikasi pikeun platform Android, impor kamus khusus parantos disederhanakeun, sareng dukungan pikeun platform Android 11 parantos nambihan. kasus, word_break jeung rojongan pikeun saringan equalization.

Hayu urang émut yén RHVoice ngagunakeun pamekaran proyék HTS (Sistem Sintésis Biantara dumasar HMM/DNN) sareng metode sintésis paramétrik sareng modél statistik (Sintesis Paramétrik Statistik dumasar kana HMM - Modél Markov Hidden). Kauntungannana model statistik nyaeta waragad overhead low jeung kakuatan CPU undemanding. Sadaya operasi dilaksanakeun sacara lokal dina sistem pangguna. Tilu tingkat kualitas ucapan dirojong (nu handap kualitas, nu leuwih luhur kinerja jeung pondok waktu réaksi).

Kelemahan model statistik nyaéta kualitas lafal anu kawilang rendah, anu henteu ngahontal tingkat sintésis anu ngahasilkeun ucapan dumasar kana kombinasi fragmen ucapan alami, tapi hasilna cukup kabaca sareng nyarupaan nyiarkeun rékaman tina spiker. . Pikeun babandingan, proyék Silero, anu nyayogikeun mesin sintésis ucapan kabuka dumasar kana téknologi pembelajaran mesin sareng sakumpulan modél basa Rusia, langkung unggul dina kualitas pikeun RHVoice.

Aya 13 pilihan sora sadia pikeun basa Rusia, jeung 5 pikeun basa Inggris. Sora nu kabentuk dumasar kana rekaman ucapan alam. Dina setélan anjeun tiasa ngarobih laju, nada sareng volume. Perpustakaan Sonic tiasa dianggo pikeun ngarobih témpo. Kasebut nyaéta dimungkinkeun pikeun otomatis ngadeteksi sareng ngalih basa dumasar kana analisa téks input (contona, pikeun kecap sareng tanda petik dina basa sanés, modél sintésis asli tina basa éta tiasa dianggo). Propil sora dirojong, nangtukeun kombinasi sora pikeun basa béda.

sumber: opennet.ru

Tambahkeun komentar