Penyintesis ucapan RHVoice 1.6.0 dirilis

Sistem sintesis pidato terbuka RHVoice 1.6.0 dirilis, awalnya dikembangkan untuk memberikan dukungan berkualitas tinggi untuk bahasa Rusia, tetapi kemudian diadaptasi untuk bahasa lain, termasuk Inggris, Portugis, Ukraina, Kirgistan, Tatar, dan Georgia. Kode ini ditulis dalam C++ dan didistribusikan di bawah lisensi LGPL 2.1. Mendukung pekerjaan di GNU/Linux, Windows dan Android. Program ini kompatibel dengan antarmuka TTS (text-to-speech) standar untuk mengonversi teks menjadi ucapan: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) dan Android Text-To-Speech API, namun juga dapat digunakan di NVDA pembaca layar. Pencipta dan pengembang utama RHVoice adalah Olga Yakovleva, yang mengembangkan proyek tersebut meskipun buta total.

Versi baru menambahkan 5 opsi suara baru untuk pidato Rusia. Dukungan bahasa Albania telah diterapkan. Kamus bahasa Ukraina telah diperbarui. Dukungan untuk akting suara karakter emoji telah diperluas. Pekerjaan telah dilakukan untuk menghilangkan kesalahan dalam aplikasi untuk platform Android, impor kamus khusus telah disederhanakan, dan dukungan untuk platform Android 11 telah ditambahkan. Pengaturan dan fungsionalitas baru telah ditambahkan ke inti mesin, termasuk g2p. case, word_break dan dukungan untuk filter pemerataan.

Ingatlah bahwa RHVoice menggunakan pengembangan proyek HTS (Sistem Sintesis Ucapan berbasis HMM/DNN) dan metode sintesis parametrik dengan model statistik (Sintesis Parametrik Statistik berdasarkan HMM - Model Markov Tersembunyi). Keuntungan model statistik ini adalah biaya overhead yang rendah dan daya CPU yang tidak menuntut. Semua operasi dilakukan secara lokal di sistem pengguna. Tiga tingkat kualitas ucapan didukung (semakin rendah kualitasnya, semakin tinggi performanya, dan semakin pendek waktu reaksinya).

Kelemahan dari model statistik ini adalah kualitas pengucapan yang relatif rendah, tidak mencapai tingkat synthesizer yang menghasilkan ucapan berdasarkan kombinasi fragmen ucapan alami, namun hasilnya cukup terbaca dan menyerupai siaran rekaman dari pengeras suara. . Sebagai perbandingan, proyek Silero, yang menyediakan mesin sintesis ucapan terbuka berdasarkan teknologi pembelajaran mesin dan serangkaian model untuk bahasa Rusia, kualitasnya lebih unggul daripada RHVoice.

Ada 13 pilihan suara yang tersedia untuk bahasa Rusia, dan 5 untuk bahasa Inggris.Suara-suara tersebut dibentuk berdasarkan rekaman ucapan alami. Dalam pengaturannya Anda dapat mengubah kecepatan, nada, dan volume. Perpustakaan Sonic dapat digunakan untuk mengubah tempo. Dimungkinkan untuk secara otomatis mendeteksi dan mengganti bahasa berdasarkan analisis teks masukan (misalnya, untuk kata-kata dan kutipan dalam bahasa lain, model sintesis asli bahasa tersebut dapat digunakan). Profil suara didukung, menentukan kombinasi suara untuk berbagai bahasa.

Sumber: opennet.ru

Tambah komentar