RHVoice 1.6.0, et talesyntesesystem med åpen kildekode, er lansert. Det ble opprinnelig utviklet for å gi støtte av høy kvalitet for russisk, men har siden blitt tilpasset for andre språk, inkludert engelsk, portugisisk, ukrainsk, kirgisisk, tatarisk og georgisk. Koden er skrevet i C++ og distribuert under LGPL 2.1-lisensen. GNU/Linux-støtte støttes også.Linux, Windows и AndroidProgrammet er kompatibelt med typiske TTS-grensesnitt (tekst-til-tale) for konvertering av tekst til tale: SAPI5 (Windows), Taleformidler (GNU/Linux) Og Android Tekst-til-tale API, men kan også brukes med NVDA-skjermleseren. Skaperen og hovedutvikleren av RHVoice er Olga Yakovleva, som fortsetter å utvikle prosjektet til tross for at hun er helt blind.
Den nye versjonen legger til 5 nye talealternativer for russisk tale. Støtte for albansk språk er implementert. Den ukrainske ordboken er oppdatert. Støtte for emojiuttale er utvidet. Feilrettinger er implementert i plattformappen. Android, importen av brukerordbøker er forenklet, og plattformstøtte er lagt til Android 11. Nye innstillinger og funksjonalitet er lagt til i motorkjernen, inkludert g2p.case, word_break og støtte for utjevningsfiltre.
La oss minne om at RHVoice bruker utviklingen av HTS-prosjektet (HMM/DNN-basert talesyntesesystem) og den parametriske syntesemetoden med statistiske modeller (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Fordelen med den statistiske modellen er lave overheadkostnader og lite krevende CPU-kraft. Alle operasjoner utføres lokalt på brukerens system. Tre nivåer av talekvalitet støttes (jo lavere kvalitet, jo høyere ytelse og kortere reaksjonstid).
Ulempen med den statistiske modellen er den relativt lave kvaliteten på uttale, som ikke når nivået til synthesizere som genererer tale basert på en kombinasjon av fragmenter av naturlig tale, men likevel er resultatet ganske leselig og ligner å kringkaste et opptak fra en høyttaler . Til sammenligning er Silero-prosjektet, som gir en åpen talesyntesemotor basert på maskinlæringsteknologier og et sett med modeller for det russiske språket, overlegen i kvalitet enn RHVoice.
Det er 13 stemmealternativer tilgjengelig for det russiske språket, og 5 for engelsk. Stemmene er dannet basert på opptak av naturlig tale. I innstillingene kan du endre hastighet, tonehøyde og volum. Sonic-biblioteket kan brukes til å endre tempo. Det er mulig å automatisk oppdage og bytte språk basert på analyse av inndatateksten (for eksempel, for ord og sitater på et annet språk, kan en syntesemodell som er hjemmehørende i det språket brukes). Stemmeprofiler støttes, og definerer kombinasjoner av stemmer for forskjellige språk.
Kilde: opennet.ru
