Vydání hlasového syntezátoru RHVoice 1.6.0

Byl vydán otevřený systém syntézy řeči RHVoice 1.6.0, původně vyvinutý tak, aby poskytoval vysoce kvalitní podporu pro ruský jazyk, ale poté byl upraven pro další jazyky, včetně angličtiny, portugalštiny, ukrajinštiny, kyrgyzštiny, tatarštiny a gruzínštiny. Kód je napsán v C++ a distribuován pod licencí LGPL 2.1. Podporuje práci na GNU/Linux, Windows a Android. Program je kompatibilní se standardními rozhraními TTS (text-to-speech) pro převod textu na řeč: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) a Android Text-To-Speech API, ale lze jej použít i v NVDA. čtečka obrazovky. Tvůrcem a hlavním vývojářem RHVoice je Olga Yakovleva, která projekt vyvíjí, přestože je zcela slepá.

Nová verze přidává 5 nových hlasových možností pro ruskou řeč. Byla implementována podpora albánštiny. Slovník pro ukrajinský jazyk byl aktualizován. Byla rozšířena podpora hlasového hraní emotikonů. Zapracovalo se na odstranění chyb v aplikaci pro platformu Android, zjednodušil se import vlastních slovníků a přibyla podpora platformy Android 11. Do jádra enginu přibyla nová nastavení a funkčnost včetně g2p. case, word_break a podpora ekvalizačních filtrů.

Připomeňme, že RHVoice využívá vývoj projektu HTS (HMM/DNN-based Speech Synthesis System) a parametrickou metodu syntézy se statistickými modely (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Výhodou statistického modelu jsou nízké režijní náklady a nenáročný výkon CPU. Všechny operace se provádějí lokálně v systému uživatele. Podporovány jsou tři úrovně kvality řeči (čím nižší kvalita, tím vyšší výkon a kratší reakční doba).

Nevýhodou statistického modelu je poměrně nízká kvalita výslovnosti, která sice nedosahuje úrovně syntezátorů generujících řeč na základě kombinace fragmentů přirozené řeči, ale přesto je výsledek vcelku čitelný a připomíná vysílání nahrávky z reproduktoru. . Pro srovnání, projekt Silero, který poskytuje otevřený motor pro syntézu řeči založený na technologiích strojového učení a sadu modelů pro ruský jazyk, je kvalitnější než RHVoice.

Pro ruský jazyk je k dispozici 13 hlasových možností a pro angličtinu 5. Hlasy jsou tvořeny na základě nahrávek přirozené řeči. V nastavení můžete změnit rychlost, výšku tónu a hlasitost. Ke změně tempa lze použít knihovnu Sonic. Je možné automaticky detekovat a přepínat jazyky na základě analýzy vstupního textu (například pro slova a uvozovky v jiném jazyce lze použít model syntézy nativní pro tento jazyk). Podporovány jsou hlasové profily, které definují kombinace hlasů pro různé jazyky.

Zdroj: opennet.ru

Přidat komentář