Megjelent az RHVoice 1.6.0 nyílt beszédszintézis rendszer, amelyet eredetileg az orosz nyelv magas színvonalú támogatására fejlesztettek ki, de aztán más nyelvekre, köztük angolra, portugálra, ukránra, kirgizre, tatárra és grúzra adaptálták. A kód C++ nyelven íródott, és az LGPL 2.1 licenc alatt terjeszthető. Támogatja a munkát GNU/Linux, Windows és Android rendszeren. A program kompatibilis a szabványos TTS (text-to-speech) interfészekkel a szöveg beszéddé alakítására: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) és Android Text-To-Speech API, de használható az NVDA-ban is. képernyőolvasó. Az RHVoice megalkotója és fő fejlesztője Olga Yakovleva, aki annak ellenére fejleszti a projektet, hogy teljesen vak.
В новой версии добавлено 5 новых вариантов голосов для русской речи. Реализована поддержка албанского языка. Обновлён словарь для украинского языка. Расширена поддержка озвучивания символов emoji. Проведена работа по устранению ошибок в приложении для платформы Android, упрощён импорт пользовательских словарей, а также добавлена поддержка платформы Android 11. В ядро движка добавлены новые настройки и функциональные возможности, включая g2p.case, word_break и поддержку фильтров эквализации.
Emlékezzünk vissza, hogy az RHVoice a HTS projekt fejlesztéseit (HMM/DNN-alapú Speech Synthesis System) és a parametrikus szintézis módszerét használja statisztikai modellekkel (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). A statisztikai modell előnye az alacsony rezsiköltségek és az igénytelen CPU teljesítmény. Minden művelet helyileg, a felhasználó rendszerén történik. A beszédminőség három szintje támogatott (minél alacsonyabb a minőség, annál nagyobb a teljesítmény és annál rövidebb a reakcióidő).
A statisztikai modell hátránya a viszonylag alacsony kiejtési minőség, amely nem éri el a természetes beszéd töredékeinek kombinációja alapján beszédet generáló szintetizátorok szintjét, de ennek ellenére az eredmény jól olvasható, és hangszóróból hangfelvétel sugárzására emlékeztet. . Összehasonlításképpen: a Silero projekt, amely egy nyílt beszédszintézis motort biztosít gépi tanulási technológiákon és egy sor orosz nyelvi modellen, minőségileg jobb, mint az RHVoice.
Az orosz nyelvhez 13, az angolhoz 5 hangbeállítás áll rendelkezésre. A beállításokban módosíthatja a sebességet, a hangmagasságot és a hangerőt. A Sonic könyvtár használható a tempó megváltoztatására. Lehetőség van a bemeneti szöveg elemzése alapján automatikusan felismerni és váltani a nyelveket (például egy másik nyelv szavaihoz és idézőjeleihez az adott nyelven natív szintézis modell használható). A hangprofilok támogatottak, amelyek a különböző nyelvek hangkombinációit határozzák meg.
Forrás: opennet.ru