Keluaran pensintesis pertuturan RHVoice 1.8.0

Sistem sintesis pertuturan terbuka RHVoice 1.8.0 telah dikeluarkan, pada mulanya dibangunkan untuk menyediakan sokongan berkualiti tinggi untuk bahasa Rusia, tetapi kemudian disesuaikan untuk bahasa lain, termasuk bahasa Inggeris, Portugis, Ukraine, Kyrgyzstan, Tatar dan Georgia. Kod ini ditulis dalam C++ dan diedarkan di bawah lesen LGPL 2.1. Menyokong kerja pada GNU/Linux, Windows dan Android. Program ini serasi dengan antara muka TTS (teks ke pertuturan) standard untuk menukar teks kepada pertuturan: SAPI5 (Windows), Penghantar Pertuturan (GNU/Linux) dan Android Text-To-Speech API, tetapi juga boleh digunakan dalam NVDA pembaca skrin. Pencipta dan pembangun utama RHVoice ialah Olga Yakovleva, yang membangunkan projek itu walaupun buta sepenuhnya.

Versi 1.8 untuk platform Android memperkenalkan sistem pengurusan data suara dan bahasa baharu yang membolehkan anda memuat turun kemas kini data suara tanpa mengemas kini aplikasi mudah alih. Kemas kini data untuk suara dan bahasa tambahan disemak secara automatik. Di samping itu, keluaran baharu memperkenalkan sokongan untuk bahasa Poland dan menambah suara baharu untuk bahasa Macedonia. Keserasian dengan keluaran alfa dan beta terkini pembaca skrin NVDA dipastikan. Memperbaiki masalah dengan membina platform Linux yang berlaku apabila Penghantar Ucapan tidak hadir.

Mari kita ingat bahawa RHVoice menggunakan pembangunan projek HTS (Sistem Sintesis Pertuturan berasaskan HMM/DNN) dan kaedah sintesis parametrik dengan model statistik (Sintesis Parametrik Statistik berdasarkan HMM - Model Markov Tersembunyi). Kelebihan model statistik ialah kos overhed yang rendah dan kuasa CPU yang tidak memerlukan. Semua operasi dilakukan secara tempatan pada sistem pengguna. Tiga tahap kualiti pertuturan disokong (lebih rendah kualiti, lebih tinggi prestasi dan lebih pendek masa tindak balas).

Kelemahan model statistik ialah kualiti sebutan yang agak rendah, yang tidak mencapai tahap pensintesis yang menjana pertuturan berdasarkan gabungan serpihan pertuturan semula jadi, tetapi bagaimanapun hasilnya agak mudah dibaca dan menyerupai penyiaran rakaman daripada pembesar suara. . Sebagai perbandingan, projek Silero, yang menyediakan enjin sintesis pertuturan terbuka berdasarkan teknologi pembelajaran mesin dan satu set model untuk bahasa Rusia, adalah lebih berkualiti daripada RHVoice.

Terdapat 14 pilihan suara yang tersedia untuk bahasa Rusia, dan 6 untuk bahasa Inggeris. Suara-suara terbentuk berdasarkan rakaman pertuturan semula jadi. Dalam tetapan anda boleh menukar kelajuan, nada dan kelantangan. Pustaka Sonic boleh digunakan untuk menukar tempo. Adalah mungkin untuk mengesan dan menukar bahasa secara automatik berdasarkan analisis teks input (contohnya, untuk perkataan dan petikan dalam bahasa lain, model sintesis asli bahasa itu boleh digunakan). Profil suara disokong, mentakrifkan gabungan suara untuk bahasa yang berbeza.

Sumber: opennet.ru

Tambah komen