RHVoice 1.6.0 talsyntes släppt

Det öppna talsyntessystemet RHVoice 1.6.0 släpptes, från början utvecklat för att ge högkvalitativt stöd för det ryska språket, men sedan anpassat för andra språk, inklusive engelska, portugisiska, ukrainska, kirgiziska, tatariska och georgiska. Koden är skriven i C++ och distribueras under LGPL 2.1-licensen. Stöder arbete på GNU/Linux, Windows och Android. Programmet är kompatibelt med standard TTS (text-till-tal)-gränssnitt för att konvertera text till tal: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) och Android Text-To-Speech API, men kan även användas i NVDA skärmläsare. Skaparen och huvudutvecklaren av RHVoice är Olga Yakovleva, som utvecklar projektet trots att hon är helt blind.

Den nya versionen lägger till 5 nya röstalternativ för ryskt tal. Stöd för albanska språket har implementerats. Ordboken för det ukrainska språket har uppdaterats. Stödet för röstskådespeleri av emoji-karaktärer har utökats. Arbete har gjorts för att eliminera fel i applikationen för Android-plattformen, importen av anpassade ordböcker har förenklats och stöd för Android 11-plattformen har lagts till. Nya inställningar och funktionalitet har lagts till i motorkärnan, inklusive g2p. case, word_break och stöd för utjämningsfilter.

Låt oss komma ihåg att RHVoice använder utvecklingen av HTS-projektet (HMM/DNN-baserat talsyntessystem) och den parametriska syntesmetoden med statistiska modeller (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Fördelen med den statistiska modellen är låga omkostnader och kravlös CPU-kraft. Alla operationer utförs lokalt på användarens system. Tre nivåer av talkvalitet stöds (ju lägre kvalitet, desto högre prestanda och desto kortare reaktionstid).

Nackdelen med den statistiska modellen är den relativt låga kvaliteten på uttalet, som inte når nivån för synthesizers som genererar tal baserat på en kombination av fragment av naturligt tal, men resultatet är ändå ganska läsligt och liknar att sända en inspelning från en högtalare . Som jämförelse kan nämnas att Silero-projektet, som tillhandahåller en öppen talsyntesmotor baserad på maskininlärningsteknik och en uppsättning modeller för det ryska språket, är överlägsen i kvalitet RHVoice.

Det finns 13 röstalternativ tillgängliga för det ryska språket och 5 för engelska. Rösterna bildas baserat på inspelningar av naturligt tal. I inställningarna kan du ändra hastighet, tonhöjd och volym. Sonic-biblioteket kan användas för att ändra tempo. Det är möjligt att automatiskt upptäcka och byta språk baserat på analys av inmatningstexten (till exempel för ord och citat på ett annat språk kan en syntesmodell som är inbyggd i det språket användas). Röstprofiler stöds, vilket definierar kombinationer av röster för olika språk.

Källa: opennet.ru

Lägg en kommentar