RHVoice 1.8.0 talesynthesizer udgivelse

Det åbne talesyntesesystem RHVoice 1.8.0 blev frigivet, oprindeligt udviklet til at give højkvalitetsunderstøttelse til det russiske sprog, men derefter tilpasset til andre sprog, herunder engelsk, portugisisk, ukrainsk, kirgisisk, tatarisk og georgisk. Koden er skrevet i C++ og distribueret under LGPL 2.1-licensen. Understøtter arbejde på GNU/Linux, Windows og Android. Programmet er kompatibelt med standard TTS-grænseflader (tekst-til-tale) til konvertering af tekst til tale: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) og Android Text-To-Speech API, men kan også bruges i NVDA skærmlæser. Skaberen og hovedudvikleren af ​​RHVoice er Olga Yakovleva, som udvikler projektet på trods af at hun er helt blind.

Version 1.8 til Android-platformen introducerer et nyt stemme- og sprogdatastyringssystem, der giver dig mulighed for at downloade stemmedataopdateringer uden at opdatere mobilapplikationen. Dataopdateringer for tilføjede stemmer og sprog kontrolleres automatisk. Derudover introducerer den nye udgivelse understøttelse af det polske sprog og tilføjer en ny stemme til det makedonske sprog. Kompatibilitet med de seneste alfa- og betaversioner af NVDA-skærmlæseren er sikret. Rettede problemer med at bygge på Linux-platformen, der opstod, da Speech Dispatcher ikke var til stede.

Lad os huske på, at RHVoice bruger udviklingen af ​​HTS-projektet (HMM/DNN-baseret talesyntesesystem) og den parametriske syntesemetode med statistiske modeller (Statistical Parametric Synthesis baseret på HMM - Hidden Markov Model). Fordelen ved den statistiske model er lave overheadomkostninger og krævende CPU-kraft. Alle handlinger udføres lokalt på brugerens system. Tre niveauer af talekvalitet er understøttet (jo lavere kvalitet, jo højere ydeevne og jo kortere reaktionstid).

Ulempen ved den statistiske model er den relativt lave udtalekvalitet, som ikke når niveauet for synthesizere, der genererer tale baseret på en kombination af fragmenter af naturlig tale, men ikke desto mindre er resultatet ret læseligt og ligner udsendelse af en optagelse fra en højttaler . Til sammenligning er Silero-projektet, som giver en åben talesyntesemotor baseret på maskinlæringsteknologier og et sæt modeller for det russiske sprog, RHVoice overlegen i kvalitet.

Der er 14 stemmemuligheder tilgængelige for det russiske sprog og 6 for engelsk. Stemmerne er dannet baseret på optagelser af naturlig tale. I indstillingerne kan du ændre hastighed, tonehøjde og lydstyrke. Sonic-biblioteket kan bruges til at ændre tempoet. Det er muligt automatisk at detektere og skifte sprog baseret på analyse af inputteksten (for eksempel, for ord og citater på et andet sprog, kan en syntesemodel, der er hjemmehørende i det pågældende sprog, bruges). Stemmeprofiler understøttes, hvilket definerer kombinationer af stemmer for forskellige sprog.

Kilde: opennet.ru

Tilføj en kommentar