RHVoice 1.8.0 talsyntes släppt

Det öppna talsyntessystemet RHVoice 1.8.0 släpptes, från början utvecklat för att ge högkvalitativt stöd för det ryska språket, men sedan anpassat för andra språk, inklusive engelska, portugisiska, ukrainska, kirgiziska, tatariska och georgiska. Koden är skriven i C++ och distribueras under LGPL 2.1-licensen. Stöder arbete på GNU/Linux, Windows och Android. Programmet är kompatibelt med standard TTS (text-till-tal)-gränssnitt för att konvertera text till tal: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) och Android Text-To-Speech API, men kan även användas i NVDA skärmläsare. Skaparen och huvudutvecklaren av RHVoice är Olga Yakovleva, som utvecklar projektet trots att hon är helt blind.

Version 1.8 för Android-plattformen introducerar ett nytt röst- och språkdatahanteringssystem som låter dig ladda ner röstdatauppdateringar utan att uppdatera mobilapplikationen. Datauppdateringar för tillagda röster och språk kontrolleras automatiskt. Dessutom introducerar den nya utgåvan stöd för det polska språket och lägger till en ny röst för det makedonska språket. Kompatibilitet med de senaste alfa- och betaversionerna av NVDA-skärmläsaren är säkerställd. Fixade problem med att bygga på Linux-plattformen som uppstod när Speech Dispatcher inte var närvarande.

Låt oss komma ihåg att RHVoice använder utvecklingen av HTS-projektet (HMM/DNN-baserat talsyntessystem) och den parametriska syntesmetoden med statistiska modeller (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Fördelen med den statistiska modellen är låga omkostnader och kravlös CPU-kraft. Alla operationer utförs lokalt på användarens system. Tre nivåer av talkvalitet stöds (ju lägre kvalitet, desto högre prestanda och desto kortare reaktionstid).

Nackdelen med den statistiska modellen är den relativt låga kvaliteten på uttalet, som inte når nivån för synthesizers som genererar tal baserat på en kombination av fragment av naturligt tal, men resultatet är ändå ganska läsligt och liknar att sända en inspelning från en högtalare . Som jämförelse kan nämnas att Silero-projektet, som tillhandahåller en öppen talsyntesmotor baserad på maskininlärningsteknik och en uppsättning modeller för det ryska språket, är överlägsen i kvalitet RHVoice.

Det finns 14 röstalternativ tillgängliga för det ryska språket och 6 för engelska. Rösterna bildas baserat på inspelningar av naturligt tal. I inställningarna kan du ändra hastighet, tonhöjd och volym. Sonic-biblioteket kan användas för att ändra tempo. Det är möjligt att automatiskt upptäcka och byta språk baserat på analys av inmatningstexten (till exempel för ord och citat på ett annat språk kan en syntesmodell som är inbyggd i det språket användas). Röstprofiler stöds, vilket definierar kombinationer av röster för olika språk.

Källa: opennet.ru

Lägg en kommentar