Paglabas ng speech synthesizer RHVoice 1.2.4, na binuo para sa wikang Ruso

Ang paglabas ng open speech synthesis system na RHVoice 1.2.4 ay nai-publish, na unang binuo upang magbigay ng mataas na kalidad na suporta para sa wikang Ruso, ngunit pagkatapos ay inangkop para sa iba pang mga wika, kabilang ang English, Portuguese, Ukrainian, Kyrgyz, Tatar at Georgian. Ang code ay nakasulat sa C++ at ipinamahagi sa ilalim ng lisensya ng LGPL 2.1. Sinusuportahan ang trabaho sa GNU/Linux, Windows at Android. Ang programa ay katugma sa karaniwang TTS (text-to-speech) na mga interface para sa pag-convert ng text sa speech: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) at Android Text-To-Speech API, ngunit maaari ding gamitin sa NVDA screen reader.

Gumagamit ang programa ng parametric synthesis method na may mga istatistikal na modelo (Statistical Parametric Synthesis batay sa HMM - Hidden Markov Model). Ang bentahe ng istatistikal na modelo ay ang mababang gastos sa overhead at hindi hinihingi na lakas ng CPU. Ang lahat ng mga operasyon ay lokal na isinasagawa sa system ng user. Tatlong antas ng kalidad ng pagsasalita ang sinusuportahan (mas mababa ang kalidad, mas mataas ang pagganap at mas maikli ang oras ng reaksyon).

Sinusuportahan ang pagtatakda at pagbabago ng mga boses. Mayroong 9 na opsyon sa boses na magagamit para sa wikang Ruso, at 5 para sa Ingles. Ang mga boses ay nabuo batay sa mga pag-record ng natural na pananalita. Dahil sa paggamit ng isang istatistikal na modelo, ang kalidad ng pagbigkas ay hindi umabot sa antas ng mga synthesizer na bumubuo ng pagsasalita batay sa isang kumbinasyon ng mga fragment ng natural na pagsasalita, ngunit gayunpaman ang resulta ay lubos na mauunawaan at kahawig ng isang broadcast ng isang pag-record mula sa isang loudspeaker .

Sa mga setting maaari mong baguhin ang bilis, pitch at volume. Ang Sonic library ay maaaring gamitin upang baguhin ang tempo. Posibleng awtomatikong makita at lumipat ng mga wika batay sa pagsusuri ng input text (halimbawa, para sa mga salita at quote sa ibang wika, maaaring gumamit ng synthesis model na katutubong sa wikang iyon). Sinusuportahan ang mga profile ng boses, na tumutukoy sa mga kumbinasyon ng mga boses para sa iba't ibang wika.

Pinagmulan: opennet.ru

Magdagdag ng komento