Sistem sintesis pertuturan terbuka RHVoice 1.6.0 telah dikeluarkan, pada mulanya dibangunkan untuk menyediakan sokongan berkualiti tinggi untuk bahasa Rusia, tetapi kemudian disesuaikan untuk bahasa lain, termasuk bahasa Inggeris, Portugis, Ukraine, Kyrgyzstan, Tatar dan Georgia. Kod ini ditulis dalam C++ dan diedarkan di bawah lesen LGPL 2.1. Menyokong kerja pada GNU/Linux, Windows dan Android. Program ini serasi dengan antara muka TTS (teks ke pertuturan) standard untuk menukar teks kepada pertuturan: SAPI5 (Windows), Penghantar Pertuturan (GNU/Linux) dan Android Text-To-Speech API, tetapi juga boleh digunakan dalam NVDA pembaca skrin. Pencipta dan pembangun utama RHVoice ialah Olga Yakovleva, yang membangunkan projek itu walaupun buta sepenuhnya.
Π Π½ΠΎΠ²ΠΎΠΉ Π²Π΅ΡΡΠΈΠΈ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΎ 5 Π½ΠΎΠ²ΡΡ Π²Π°ΡΠΈΠ°Π½ΡΠΎΠ² Π³ΠΎΠ»ΠΎΡΠΎΠ² Π΄Π»Ρ ΡΡΡΡΠΊΠΎΠΉ ΡΠ΅ΡΠΈ. Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π° ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° Π°Π»Π±Π°Π½ΡΠΊΠΎΠ³ΠΎ ΡΠ·ΡΠΊΠ°. ΠΠ±Π½ΠΎΠ²Π»ΡΠ½ ΡΠ»ΠΎΠ²Π°ΡΡ Π΄Π»Ρ ΡΠΊΡΠ°ΠΈΠ½ΡΠΊΠΎΠ³ΠΎ ΡΠ·ΡΠΊΠ°. Π Π°ΡΡΠΈΡΠ΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° ΠΎΠ·Π²ΡΡΠΈΠ²Π°Π½ΠΈΡ ΡΠΈΠΌΠ²ΠΎΠ»ΠΎΠ² emoji. ΠΡΠΎΠ²Π΅Π΄Π΅Π½Π° ΡΠ°Π±ΠΎΡΠ° ΠΏΠΎ ΡΡΡΡΠ°Π½Π΅Π½ΠΈΡ ΠΎΡΠΈΠ±ΠΎΠΊ Π² ΠΏΡΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ Π΄Π»Ρ ΠΏΠ»Π°ΡΡΠΎΡΠΌΡ Android, ΡΠΏΡΠΎΡΡΠ½ ΠΈΠΌΠΏΠΎΡΡ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»ΡΡΠΊΠΈΡ ΡΠ»ΠΎΠ²Π°ΡΠ΅ΠΉ, Π° ΡΠ°ΠΊΠΆΠ΅ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° ΠΏΠ»Π°ΡΡΠΎΡΠΌΡ Android 11. Π ΡΠ΄ΡΠΎ Π΄Π²ΠΈΠΆΠΊΠ° Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ Π½ΠΎΠ²ΡΠ΅ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ ΠΈ ΡΡΠ½ΠΊΡΠΈΠΎΠ½Π°Π»ΡΠ½ΡΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ, Π²ΠΊΠ»ΡΡΠ°Ρ g2p.case, word_break ΠΈ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΡ ΡΠΈΠ»ΡΡΡΠΎΠ² ΡΠΊΠ²Π°Π»ΠΈΠ·Π°ΡΠΈΠΈ.
Mari kita ingat bahawa RHVoice menggunakan pembangunan projek HTS (Sistem Sintesis Pertuturan berasaskan HMM/DNN) dan kaedah sintesis parametrik dengan model statistik (Sintesis Parametrik Statistik berdasarkan HMM - Model Markov Tersembunyi). Kelebihan model statistik ialah kos overhed yang rendah dan kuasa CPU yang tidak memerlukan. Semua operasi dilakukan secara tempatan pada sistem pengguna. Tiga tahap kualiti pertuturan disokong (lebih rendah kualiti, lebih tinggi prestasi dan lebih pendek masa tindak balas).
Kelemahan model statistik ialah kualiti sebutan yang agak rendah, yang tidak mencapai tahap pensintesis yang menjana pertuturan berdasarkan gabungan serpihan pertuturan semula jadi, tetapi bagaimanapun hasilnya agak mudah dibaca dan menyerupai penyiaran rakaman daripada pembesar suara. . Sebagai perbandingan, projek Silero, yang menyediakan enjin sintesis pertuturan terbuka berdasarkan teknologi pembelajaran mesin dan satu set model untuk bahasa Rusia, adalah lebih berkualiti daripada RHVoice.
Terdapat 13 pilihan suara yang tersedia untuk bahasa Rusia, dan 5 untuk bahasa Inggeris. Suara-suara terbentuk berdasarkan rakaman pertuturan semula jadi. Dalam tetapan anda boleh menukar kelajuan, nada dan kelantangan. Pustaka Sonic boleh digunakan untuk menukar tempo. Adalah mungkin untuk mengesan dan menukar bahasa secara automatik berdasarkan analisis teks input (contohnya, untuk perkataan dan petikan dalam bahasa lain, model sintesis asli bahasa itu boleh digunakan). Profil suara disokong, mentakrifkan gabungan suara untuk bahasa yang berbeza.
Sumber: opennet.ru