RHVoice 1.8.0 speech synthesizer release

Ang open speech synthesis system na RHVoice 1.8.0 ay inilabas, na unang binuo upang magbigay ng mataas na kalidad na suporta para sa wikang Russian, ngunit pagkatapos ay inangkop para sa iba pang mga wika, kabilang ang English, Portuguese, Ukrainian, Kyrgyz, Tatar at Georgian. Ang code ay nakasulat sa C++ at ipinamahagi sa ilalim ng lisensya ng LGPL 2.1. Sinusuportahan ang trabaho sa GNU/Linux, Windows at Android. Ang programa ay katugma sa karaniwang TTS (text-to-speech) na mga interface para sa pag-convert ng text sa speech: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) at Android Text-To-Speech API, ngunit maaari ding gamitin sa NVDA screen reader. Ang lumikha at pangunahing developer ng RHVoice ay si Olga Yakovleva, na bumuo ng proyekto sa kabila ng pagiging ganap na bulag.

Π’ вСрсии 1.8 для ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΡ‹ Android ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π° новая систСма управлСния голосовыми ΠΈ языковыми Π΄Π°Π½Π½Ρ‹ΠΌΠΈ, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰Π°Ρ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ обновлСния голосовых Π΄Π°Π½Π½Ρ‹Ρ… Π±Π΅Π· обновлСния мобильного прилоТСния. ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° появлСния ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠΉ Π΄Π°Π½Π½Ρ‹Ρ… для Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π½Ρ‹Ρ… голосов ΠΈ языков производится автоматичСски. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Π² Π½ΠΎΠ²ΠΎΠΌ выпускС Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π° ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° польского языка ΠΈ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ Π½ΠΎΠ²Ρ‹ΠΉ голос для макСдонского языка. ΠžΠ±Π΅ΡΠΏΠ΅Ρ‡Π΅Π½Π° ΡΠΎΠ²ΠΌΠ΅ΡΡ‚ΠΈΠΌΠΎΡΡ‚ΡŒ со свСТими Π°Π»ΡŒΡ„Π°- ΠΈ Π±Π΅Ρ‚Π°-выпусками экранного Ρ€ΠΈΠ΄Π΅Ρ€Π° NVDA. УстранСны ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ со сборкой Π½Π° ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ΅ Linux, возникавшиС ΠΏΡ€ΠΈ отсутствии Speech Dispatcher.

Alalahanin natin na ginagamit ng RHVoice ang mga pagpapaunlad ng proyekto ng HTS (Speech Synthesis System na nakabatay sa HMM/DNN) at ang parametric synthesis na paraan sa mga istatistikal na modelo (Statistical Parametric Synthesis batay sa HMM - Hidden Markov Model). Ang bentahe ng istatistikal na modelo ay ang mababang gastos sa overhead at hindi hinihingi na lakas ng CPU. Ang lahat ng mga operasyon ay lokal na isinasagawa sa system ng user. Tatlong antas ng kalidad ng pagsasalita ang sinusuportahan (mas mababa ang kalidad, mas mataas ang pagganap at mas maikli ang oras ng reaksyon).

Ang downside ng istatistikal na modelo ay ang medyo mababang kalidad ng pagbigkas, na hindi umabot sa antas ng mga synthesizer na bumubuo ng pagsasalita batay sa isang kumbinasyon ng mga fragment ng natural na pagsasalita, ngunit gayunpaman ang resulta ay medyo nababasa at kahawig ng pagsasahimpapawid ng isang pag-record mula sa isang loudspeaker . Para sa paghahambing, ang proyektong Silero, na nagbibigay ng bukas na speech synthesis engine batay sa mga teknolohiya sa pag-aaral ng makina at isang hanay ng mga modelo para sa wikang Ruso, ay higit na mataas sa kalidad kaysa sa RHVoice.

Mayroong 14 mga pagpipilian sa boses na magagamit para sa wikang Ruso, at 6 para sa Ingles. Ang mga boses ay nabuo batay sa mga pag-record ng natural na pananalita. Sa mga setting maaari mong baguhin ang bilis, pitch at volume. Ang Sonic library ay maaaring gamitin upang baguhin ang tempo. Posibleng awtomatikong makita at lumipat ng mga wika batay sa pagsusuri ng input text (halimbawa, para sa mga salita at quote sa ibang wika, maaaring gumamit ng synthesis model na katutubong sa wikang iyon). Sinusuportahan ang mga profile ng boses, na tumutukoy sa mga kumbinasyon ng mga boses para sa iba't ibang wika.

Pinagmulan: opennet.ru

Magdagdag ng komento