RHVoice 1.8.0 beszédszintetizátor kiadás

Megjelent az RHVoice 1.8.0 nyílt beszédszintézis rendszer, amelyet eredetileg az orosz nyelv magas színvonalú támogatására fejlesztettek ki, de aztán más nyelvekre, köztük angolra, portugálra, ukránra, kirgizre, tatárra és grúzra adaptálták. A kód C++ nyelven íródott, és az LGPL 2.1 licenc alatt terjeszthető. Támogatja a munkát GNU/Linux, Windows és Android rendszeren. A program kompatibilis a szabványos TTS (text-to-speech) interfészekkel a szöveg beszéddé alakítására: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) és Android Text-To-Speech API, de használható az NVDA-ban is. képernyőolvasó. Az RHVoice megalkotója és fő fejlesztője Olga Yakovleva, aki annak ellenére fejleszti a projektet, hogy teljesen vak.

Az Android platform 1.8-as verziója új hang- és nyelvi adatkezelő rendszert vezet be, amely lehetővé teszi a hangadatok frissítéseinek letöltését a mobilalkalmazás frissítése nélkül. A hozzáadott hangokhoz és nyelvekhez tartozó adatfrissítéseket a rendszer automatikusan ellenőrzi. Ezenkívül az új kiadás támogatja a lengyel nyelvet, és új hangot ad a macedón nyelvhez. A kompatibilitás az NVDA képernyőolvasó legújabb alfa- és béta-kiadásaival biztosított. Javítva a Linux platformra építéssel kapcsolatos problémák, amelyek akkor fordultak elő, amikor a Speech Dispatcher nem volt jelen.

Emlékezzünk vissza, hogy az RHVoice a HTS projekt fejlesztéseit (HMM/DNN-alapú Speech Synthesis System) és a parametrikus szintézis módszerét használja statisztikai modellekkel (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). A statisztikai modell előnye az alacsony rezsiköltségek és az igénytelen CPU teljesítmény. Minden művelet helyileg, a felhasználó rendszerén történik. A beszédminőség három szintje támogatott (minél alacsonyabb a minőség, annál nagyobb a teljesítmény és annál rövidebb a reakcióidő).

A statisztikai modell hátránya a viszonylag alacsony kiejtési minőség, amely nem éri el a természetes beszéd töredékeinek kombinációja alapján beszédet generáló szintetizátorok szintjét, de ennek ellenére az eredmény jól olvasható, és hangszóróból hangfelvétel sugárzására emlékeztet. . Összehasonlításképpen: a Silero projekt, amely egy nyílt beszédszintézis motort biztosít gépi tanulási technológiákon és egy sor orosz nyelvi modellen, minőségileg jobb, mint az RHVoice.

Az orosz nyelvhez 14, az angolhoz 6 hangbeállítás áll rendelkezésre. A beállításokban módosíthatja a sebességet, a hangmagasságot és a hangerőt. A Sonic könyvtár használható a tempó megváltoztatására. Lehetőség van a bemeneti szöveg elemzése alapján automatikusan felismerni és váltani a nyelveket (például egy másik nyelv szavaihoz és idézőjeleihez az adott nyelven natív szintézis modell használható). A hangprofilok támogatottak, amelyek a különböző nyelvek hangkombinációit határozzák meg.

Forrás: opennet.ru

Hozzászólás