Penyintesis ucapan RHVoice 1.8.0 dirilis

Sistem sintesis pidato terbuka RHVoice 1.8.0 dirilis, awalnya dikembangkan untuk memberikan dukungan berkualitas tinggi untuk bahasa Rusia, tetapi kemudian diadaptasi untuk bahasa lain, termasuk Inggris, Portugis, Ukraina, Kirgistan, Tatar, dan Georgia. Kode ini ditulis dalam C++ dan didistribusikan di bawah lisensi LGPL 2.1. Mendukung pekerjaan di GNU/Linux, Windows dan Android. Program ini kompatibel dengan antarmuka TTS (text-to-speech) standar untuk mengonversi teks menjadi ucapan: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) dan Android Text-To-Speech API, namun juga dapat digunakan di NVDA pembaca layar. Pencipta dan pengembang utama RHVoice adalah Olga Yakovleva, yang mengembangkan proyek tersebut meskipun buta total.

Versi 1.8 untuk platform Android memperkenalkan sistem manajemen data suara dan bahasa baru yang memungkinkan Anda mengunduh pembaruan data suara tanpa memperbarui aplikasi seluler. Pembaruan data untuk suara dan bahasa tambahan diperiksa secara otomatis. Selain itu, rilis baru ini memperkenalkan dukungan untuk bahasa Polandia dan menambahkan suara baru untuk bahasa Makedonia. Kompatibilitas dengan rilis alfa dan beta terbaru dari pembaca layar NVDA terjamin. Memperbaiki masalah pembangunan di platform Linux yang terjadi saat Speech Dispatcher tidak ada.

Ingatlah bahwa RHVoice menggunakan pengembangan proyek HTS (Sistem Sintesis Ucapan berbasis HMM/DNN) dan metode sintesis parametrik dengan model statistik (Sintesis Parametrik Statistik berdasarkan HMM - Model Markov Tersembunyi). Keuntungan model statistik ini adalah biaya overhead yang rendah dan daya CPU yang tidak menuntut. Semua operasi dilakukan secara lokal di sistem pengguna. Tiga tingkat kualitas ucapan didukung (semakin rendah kualitasnya, semakin tinggi performanya, dan semakin pendek waktu reaksinya).

Kelemahan dari model statistik ini adalah kualitas pengucapan yang relatif rendah, tidak mencapai tingkat synthesizer yang menghasilkan ucapan berdasarkan kombinasi fragmen ucapan alami, namun hasilnya cukup terbaca dan menyerupai siaran rekaman dari pengeras suara. . Sebagai perbandingan, proyek Silero, yang menyediakan mesin sintesis ucapan terbuka berdasarkan teknologi pembelajaran mesin dan serangkaian model untuk bahasa Rusia, kualitasnya lebih unggul daripada RHVoice.

Ada 14 pilihan suara yang tersedia untuk bahasa Rusia, dan 6 untuk bahasa Inggris.Suara-suara tersebut dibentuk berdasarkan rekaman ucapan alami. Dalam pengaturannya Anda dapat mengubah kecepatan, nada, dan volume. Perpustakaan Sonic dapat digunakan untuk mengubah tempo. Dimungkinkan untuk secara otomatis mendeteksi dan mengganti bahasa berdasarkan analisis teks masukan (misalnya, untuk kata-kata dan kutipan dalam bahasa lain, model sintesis asli bahasa tersebut dapat digunakan). Profil suara didukung, menentukan kombinasi suara untuk berbagai bahasa.

Sumber: opennet.ru

Tambah komentar