RHVoice 1.6.0 talesynthesizer udgivelse

Det åbne talesyntesesystem RHVoice 1.6.0 blev frigivet, oprindeligt udviklet til at give højkvalitetsunderstøttelse til det russiske sprog, men derefter tilpasset til andre sprog, herunder engelsk, portugisisk, ukrainsk, kirgisisk, tatarisk og georgisk. Koden er skrevet i C++ og distribueret under LGPL 2.1-licensen. Understøtter arbejde på GNU/Linux, Windows og Android. Programmet er kompatibelt med standard TTS-grænseflader (tekst-til-tale) til konvertering af tekst til tale: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) og Android Text-To-Speech API, men kan også bruges i NVDA skærmlæser. Skaberen og hovedudvikleren af ​​RHVoice er Olga Yakovleva, som udvikler projektet på trods af at hun er helt blind.

Den nye version tilføjer 5 nye stemmemuligheder til russisk tale. Albansk sprogstøtte er blevet implementeret. Ordbogen for det ukrainske sprog er blevet opdateret. Understøttelse af stemmeskuespil af emoji-karakterer er blevet udvidet. Der er arbejdet på at eliminere fejl i applikationen til Android-platformen, importen af ​​brugerdefinerede ordbøger er blevet forenklet, og der er tilføjet understøttelse af Android 11-platformen Nye indstillinger og funktionalitet er tilføjet motorkernen, herunder g2p. case, word_break og understøttelse af udligningsfiltre.

Lad os huske på, at RHVoice bruger udviklingen af ​​HTS-projektet (HMM/DNN-baseret talesyntesesystem) og den parametriske syntesemetode med statistiske modeller (Statistical Parametric Synthesis baseret på HMM - Hidden Markov Model). Fordelen ved den statistiske model er lave overheadomkostninger og krævende CPU-kraft. Alle handlinger udføres lokalt på brugerens system. Tre niveauer af talekvalitet er understøttet (jo lavere kvalitet, jo højere ydeevne og jo kortere reaktionstid).

Ulempen ved den statistiske model er den relativt lave udtalekvalitet, som ikke når niveauet for synthesizere, der genererer tale baseret på en kombination af fragmenter af naturlig tale, men ikke desto mindre er resultatet ret læseligt og ligner udsendelse af en optagelse fra en højttaler . Til sammenligning er Silero-projektet, som giver en åben talesyntesemotor baseret på maskinlæringsteknologier og et sæt modeller for det russiske sprog, RHVoice overlegen i kvalitet.

Der er 13 stemmemuligheder tilgængelige for det russiske sprog og 5 for engelsk. Stemmerne er dannet baseret på optagelser af naturlig tale. I indstillingerne kan du ændre hastighed, tonehøjde og lydstyrke. Sonic-biblioteket kan bruges til at ændre tempoet. Det er muligt automatisk at detektere og skifte sprog baseret på analyse af inputteksten (for eksempel, for ord og citater på et andet sprog, kan en syntesemodel, der er hjemmehørende i det pågældende sprog, bruges). Stemmeprofiler understøttes, hvilket definerer kombinationer af stemmer for forskellige sprog.

Kilde: opennet.ru

Tilføj en kommentar