Megjelent az RHVoice 1.8.0 nyílt beszédszintézis rendszer, amelyet eredetileg az orosz nyelv magas színvonalú támogatására fejlesztettek ki, de aztán más nyelvekre, köztük angolra, portugálra, ukránra, kirgizre, tatárra és grúzra adaptálták. A kód C++ nyelven íródott, és az LGPL 2.1 licenc alatt terjeszthető. Támogatja a munkát GNU/Linux, Windows és Android rendszeren. A program kompatibilis a szabványos TTS (text-to-speech) interfészekkel a szöveg beszéddé alakítására: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) és Android Text-To-Speech API, de használható az NVDA-ban is. képernyőolvasó. Az RHVoice megalkotója és fő fejlesztője Olga Yakovleva, aki annak ellenére fejleszti a projektet, hogy teljesen vak.
Az Android platform 1.8-as verziója új hang- és nyelvi adatkezelő rendszert vezet be, amely lehetővé teszi a hangadatok frissítéseinek letöltését a mobilalkalmazás frissítése nélkül. A hozzáadott hangokhoz és nyelvekhez tartozó adatfrissítéseket a rendszer automatikusan ellenőrzi. Ezenkívül az új kiadás támogatja a lengyel nyelvet, és új hangot ad a macedón nyelvhez. A kompatibilitás az NVDA képernyőolvasó legújabb alfa- és béta-kiadásaival biztosított. Javítva a Linux platformra építéssel kapcsolatos problémák, amelyek akkor fordultak elő, amikor a Speech Dispatcher nem volt jelen.
Emlékezzünk vissza, hogy az RHVoice a HTS projekt fejlesztéseit (HMM/DNN-alapú Speech Synthesis System) és a parametrikus szintézis módszerét használja statisztikai modellekkel (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). A statisztikai modell előnye az alacsony rezsiköltségek és az igénytelen CPU teljesítmény. Minden művelet helyileg, a felhasználó rendszerén történik. A beszédminőség három szintje támogatott (minél alacsonyabb a minőség, annál nagyobb a teljesítmény és annál rövidebb a reakcióidő).
A statisztikai modell hátránya a viszonylag alacsony kiejtési minőség, amely nem éri el a természetes beszéd töredékeinek kombinációja alapján beszédet generáló szintetizátorok szintjét, de ennek ellenére az eredmény jól olvasható, és hangszóróból hangfelvétel sugárzására emlékeztet. . Összehasonlításképpen: a Silero projekt, amely egy nyílt beszédszintézis motort biztosít gépi tanulási technológiákon és egy sor orosz nyelvi modellen, minőségileg jobb, mint az RHVoice.
Az orosz nyelvhez 14, az angolhoz 6 hangbeállítás áll rendelkezésre. A beállításokban módosíthatja a sebességet, a hangmagasságot és a hangerőt. A Sonic könyvtár használható a tempó megváltoztatására. Lehetőség van a bemeneti szöveg elemzése alapján automatikusan felismerni és váltani a nyelveket (például egy másik nyelv szavaihoz és idézőjeleihez az adott nyelven natív szintézis modell használható). A hangprofilok támogatottak, amelyek a különböző nyelvek hangkombinációit határozzák meg.
Forrás: opennet.ru