Vydání hlasového syntezátoru RHVoice 1.8.0

Byl vydán otevřený systém syntézy řeči RHVoice 1.8.0, původně vyvinutý tak, aby poskytoval vysoce kvalitní podporu pro ruský jazyk, ale poté byl upraven pro další jazyky, včetně angličtiny, portugalštiny, ukrajinštiny, kyrgyzštiny, tatarštiny a gruzínštiny. Kód je napsán v C++ a distribuován pod licencí LGPL 2.1. Podporuje práci na GNU/Linux, Windows a Android. Program je kompatibilní se standardními rozhraními TTS (text-to-speech) pro převod textu na řeč: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) a Android Text-To-Speech API, ale lze jej použít i v NVDA. čtečka obrazovky. Tvůrcem a hlavním vývojářem RHVoice je Olga Yakovleva, která projekt vyvíjí, přestože je zcela slepá.

Verze 1.8 pro platformu Android zavádí nový systém správy hlasových a jazykových dat, který umožňuje stahovat aktualizace hlasových dat bez aktualizace mobilní aplikace. Aktualizace dat pro přidané hlasy a jazyky jsou kontrolovány automaticky. Kromě toho nová verze zavádí podporu pro polský jazyk a přidává nový hlas pro makedonský jazyk. Je zajištěna kompatibilita s nejnovějšími alfa a beta verzemi čtečky obrazovky NVDA. Opraveny problémy se sestavováním na platformě Linux, ke kterým došlo, když nebyl přítomen Speech Dispatcher.

Připomeňme, že RHVoice využívá vývoj projektu HTS (HMM/DNN-based Speech Synthesis System) a parametrickou metodu syntézy se statistickými modely (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Výhodou statistického modelu jsou nízké režijní náklady a nenáročný výkon CPU. Všechny operace se provádějí lokálně v systému uživatele. Podporovány jsou tři úrovně kvality řeči (čím nižší kvalita, tím vyšší výkon a kratší reakční doba).

Nevýhodou statistického modelu je poměrně nízká kvalita výslovnosti, která sice nedosahuje úrovně syntezátorů generujících řeč na základě kombinace fragmentů přirozené řeči, ale přesto je výsledek vcelku čitelný a připomíná vysílání nahrávky z reproduktoru. . Pro srovnání, projekt Silero, který poskytuje otevřený motor pro syntézu řeči založený na technologiích strojového učení a sadu modelů pro ruský jazyk, je kvalitnější než RHVoice.

Pro ruský jazyk je k dispozici 14 hlasových možností a pro angličtinu 6. Hlasy jsou tvořeny na základě nahrávek přirozené řeči. V nastavení můžete změnit rychlost, výšku tónu a hlasitost. Ke změně tempa lze použít knihovnu Sonic. Je možné automaticky detekovat a přepínat jazyky na základě analýzy vstupního textu (například pro slova a uvozovky v jiném jazyce lze použít model syntézy nativní pro tento jazyk). Podporovány jsou hlasové profily, které definují kombinace hlasů pro různé jazyky.

Zdroj: opennet.ru

Přidat komentář