Utgivelse av RHVoice 1.6.0 talesynthesizer

Det åpne talesyntesesystemet RHVoice 1.6.0 ble utgitt, opprinnelig utviklet for å gi høykvalitetsstøtte for det russiske språket, men deretter tilpasset for andre språk, inkludert engelsk, portugisisk, ukrainsk, kirgisisk, tatarisk og georgisk. Koden er skrevet i C++ og distribuert under LGPL 2.1-lisensen. Støtter arbeid på GNU/Linux, Windows og Android. Programmet er kompatibelt med standard TTS-grensesnitt (tekst-til-tale) for konvertering av tekst til tale: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) og Android Text-To-Speech API, men kan også brukes i NVDA skjermleser. Skaperen og hovedutvikleren av RHVoice er Olga Yakovleva, som utvikler prosjektet til tross for at hun er helt blind.

Den nye versjonen legger til 5 nye stemmealternativer for russisk tale. Støtte for albansk språk er implementert. Ordboken for det ukrainske språket er oppdatert. Støtte for stemmeskuespill av emoji-karakterer er utvidet. Det er jobbet med å eliminere feil i applikasjonen til Android-plattformen, import av egendefinerte ordbøker er forenklet, og støtte for Android 11-plattformen er lagt til. Nye innstillinger og funksjonalitet er lagt til motorkjernen, inkludert g2p. case, word_break og støtte for utjevningsfiltre.

La oss minne om at RHVoice bruker utviklingen av HTS-prosjektet (HMM/DNN-basert talesyntesesystem) og den parametriske syntesemetoden med statistiske modeller (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Fordelen med den statistiske modellen er lave overheadkostnader og lite krevende CPU-kraft. Alle operasjoner utføres lokalt på brukerens system. Tre nivåer av talekvalitet støttes (jo lavere kvalitet, jo høyere ytelse og kortere reaksjonstid).

Ulempen med den statistiske modellen er den relativt lave kvaliteten på uttale, som ikke når nivået til synthesizere som genererer tale basert på en kombinasjon av fragmenter av naturlig tale, men likevel er resultatet ganske leselig og ligner å kringkaste et opptak fra en høyttaler . Til sammenligning er Silero-prosjektet, som gir en åpen talesyntesemotor basert på maskinlæringsteknologier og et sett med modeller for det russiske språket, overlegen i kvalitet enn RHVoice.

Det er 13 stemmealternativer tilgjengelig for det russiske språket, og 5 for engelsk. Stemmene er dannet basert på opptak av naturlig tale. I innstillingene kan du endre hastighet, tonehøyde og volum. Sonic-biblioteket kan brukes til å endre tempo. Det er mulig å automatisk oppdage og bytte språk basert på analyse av inndatateksten (for eksempel, for ord og sitater på et annet språk, kan en syntesemodell som er hjemmehørende i det språket brukes). Stemmeprofiler støttes, og definerer kombinasjoner av stemmer for forskjellige språk.

Kilde: opennet.ru

Legg til en kommentar