Izdaja sintetizatorja govora RHVoice 1.6.0

Izdan je bil odprti sistem za sintezo govora RHVoice 1.6.0, ki je bil prvotno razvit za zagotavljanje visokokakovostne podpore za ruski jezik, nato pa prilagojen za druge jezike, vključno z angleščino, portugalščino, ukrajinščino, kirgiščino, tatarščino in gruzijščino. Koda je napisana v C++ in se distribuira pod licenco LGPL 2.1. Podpira delo na GNU/Linux, Windows in Android. Program je združljiv s standardnimi vmesniki TTS (besedilo v govor) za pretvorbo besedila v govor: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) in Android Text-To-Speech API, lahko pa se uporablja tudi v NVDA bralnik zaslona. Ustvarjalec in glavni razvijalec RHVoice je Olga Yakovleva, ki razvija projekt kljub temu, da je popolnoma slepa.

Nova različica dodaja 5 novih glasovnih možnosti za ruski govor. Izvedena je podpora za albanski jezik. Slovar za ukrajinski jezik je posodobljen. Podpora za glasovno predvajanje znakov emoji je razširjena. Opravljeno je bilo delo za odpravo napak v aplikaciji za platformo Android, poenostavljen je uvoz slovarjev po meri in dodana je podpora za platformo Android 11. V jedro motorja so dodane nove nastavitve in funkcionalnosti, vključno z g2p. case, word_break in podpora za izravnalne filtre.

Naj spomnimo, da RHVoice uporablja razvoj projekta HTS (HMM/DNN-based Speech Synthesis System) in metodo parametrične sinteze s statističnimi modeli (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Prednost statističnega modela so nizki režijski stroški in nezahtevna procesorska moč. Vse operacije se izvajajo lokalno v uporabnikovem sistemu. Podprte so tri stopnje kakovosti govora (nižja kot je kakovost, višja je zmogljivost in krajši reakcijski čas).

Slaba stran statističnega modela je relativno nizka kakovost izgovorjave, ki ne dosega ravni sintetizatorjev, ki generirajo govor na podlagi kombinacije fragmentov naravnega govora, kljub temu pa je rezultat precej berljiv in spominja na predvajanje posnetka iz zvočnika. . Za primerjavo, projekt Silero, ki zagotavlja odprt motor za sintezo govora, ki temelji na tehnologijah strojnega učenja in naboru modelov za ruski jezik, je po kakovosti boljši od RHVoice.

Za ruski jezik je na voljo 13 glasovnih možnosti, za angleški pa 5. Glasovi so oblikovani na podlagi posnetkov naravnega govora. V nastavitvah lahko spremenite hitrost, višino in glasnost. Knjižnico Sonic lahko uporabite za spreminjanje tempa. Možno je samodejno zaznavanje in preklapljanje med jeziki na podlagi analize vnesenega besedila (na primer za besede in citate v drugem jeziku je mogoče uporabiti sintezni model, ki je izviren iz tega jezika). Podprti so glasovni profili, ki določajo kombinacije glasov za različne jezike.

Vir: opennet.ru

Dodaj komentar