Keluaran pensintesis pertuturan RHVoice 1.6.0

Sistem sintesis pertuturan terbuka RHVoice 1.6.0 telah dikeluarkan, pada mulanya dibangunkan untuk menyediakan sokongan berkualiti tinggi untuk bahasa Rusia, tetapi kemudian disesuaikan untuk bahasa lain, termasuk bahasa Inggeris, Portugis, Ukraine, Kyrgyzstan, Tatar dan Georgia. Kod ini ditulis dalam C++ dan diedarkan di bawah lesen LGPL 2.1. Menyokong kerja pada GNU/Linux, Windows dan Android. Program ini serasi dengan antara muka TTS (teks ke pertuturan) standard untuk menukar teks kepada pertuturan: SAPI5 (Windows), Penghantar Pertuturan (GNU/Linux) dan Android Text-To-Speech API, tetapi juga boleh digunakan dalam NVDA pembaca skrin. Pencipta dan pembangun utama RHVoice ialah Olga Yakovleva, yang membangunkan projek itu walaupun buta sepenuhnya.

Π’ Π½ΠΎΠ²ΠΎΠΉ вСрсии Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΎ 5 Π½ΠΎΠ²Ρ‹Ρ… Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ² голосов для русской Ρ€Π΅Ρ‡ΠΈ. Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° албанского языка. ΠžΠ±Π½ΠΎΠ²Π»Ρ‘Π½ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ для украинского языка. Π Π°ΡΡˆΠΈΡ€Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° озвучивания символов emoji. ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° Ρ€Π°Π±ΠΎΡ‚Π° ΠΏΠΎ ΡƒΡΡ‚Ρ€Π°Π½Π΅Π½ΠΈΡŽ ошибок Π² ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ для ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΡ‹ Android, ΡƒΠΏΡ€ΠΎΡ‰Ρ‘Π½ ΠΈΠΌΠΏΠΎΡ€Ρ‚ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΡ… словарСй, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΡ‹ Android 11. Π’ ядро Π΄Π²ΠΈΠΆΠΊΠ° Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ Π½ΠΎΠ²Ρ‹Π΅ настройки ΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ возмоТности, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ g2p.case, word_break ΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΡƒ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ² эквализации.

Mari kita ingat bahawa RHVoice menggunakan pembangunan projek HTS (Sistem Sintesis Pertuturan berasaskan HMM/DNN) dan kaedah sintesis parametrik dengan model statistik (Sintesis Parametrik Statistik berdasarkan HMM - Model Markov Tersembunyi). Kelebihan model statistik ialah kos overhed yang rendah dan kuasa CPU yang tidak memerlukan. Semua operasi dilakukan secara tempatan pada sistem pengguna. Tiga tahap kualiti pertuturan disokong (lebih rendah kualiti, lebih tinggi prestasi dan lebih pendek masa tindak balas).

Kelemahan model statistik ialah kualiti sebutan yang agak rendah, yang tidak mencapai tahap pensintesis yang menjana pertuturan berdasarkan gabungan serpihan pertuturan semula jadi, tetapi bagaimanapun hasilnya agak mudah dibaca dan menyerupai penyiaran rakaman daripada pembesar suara. . Sebagai perbandingan, projek Silero, yang menyediakan enjin sintesis pertuturan terbuka berdasarkan teknologi pembelajaran mesin dan satu set model untuk bahasa Rusia, adalah lebih berkualiti daripada RHVoice.

Terdapat 13 pilihan suara yang tersedia untuk bahasa Rusia, dan 5 untuk bahasa Inggeris. Suara-suara terbentuk berdasarkan rakaman pertuturan semula jadi. Dalam tetapan anda boleh menukar kelajuan, nada dan kelantangan. Pustaka Sonic boleh digunakan untuk menukar tempo. Adalah mungkin untuk mengesan dan menukar bahasa secara automatik berdasarkan analisis teks input (contohnya, untuk perkataan dan petikan dalam bahasa lain, model sintesis asli bahasa itu boleh digunakan). Profil suara disokong, mentakrifkan gabungan suara untuk bahasa yang berbeza.

Sumber: opennet.ru

Tambah komen