Utgivelse av RHVoice 1.8.0 talesynthesizer

Det åpne talesyntesesystemet RHVoice 1.8.0 ble utgitt, opprinnelig utviklet for å gi høykvalitetsstøtte for det russiske språket, men deretter tilpasset for andre språk, inkludert engelsk, portugisisk, ukrainsk, kirgisisk, tatarisk og georgisk. Koden er skrevet i C++ og distribuert under LGPL 2.1-lisensen. Støtter arbeid på GNU/Linux, Windows og Android. Programmet er kompatibelt med standard TTS-grensesnitt (tekst-til-tale) for konvertering av tekst til tale: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) og Android Text-To-Speech API, men kan også brukes i NVDA skjermleser. Skaperen og hovedutvikleren av RHVoice er Olga Yakovleva, som utvikler prosjektet til tross for at hun er helt blind.

Versjon 1.8 for Android-plattformen introduserer et nytt tale- og språkdatabehandlingssystem som lar deg laste ned taledataoppdateringer uten å oppdatere mobilapplikasjonen. Dataoppdateringer for lagt til stemmer og språk sjekkes automatisk. I tillegg introduserer den nye utgivelsen støtte for det polske språket og legger til en ny stemme for det makedonske språket. Kompatibilitet med de nyeste alfa- og betaversjonene av NVDA-skjermleseren er sikret. Rettet problemer med å bygge på Linux-plattformen som oppstod når Speech Dispatcher ikke var til stede.

La oss minne om at RHVoice bruker utviklingen av HTS-prosjektet (HMM/DNN-basert talesyntesesystem) og den parametriske syntesemetoden med statistiske modeller (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Fordelen med den statistiske modellen er lave overheadkostnader og lite krevende CPU-kraft. Alle operasjoner utføres lokalt på brukerens system. Tre nivåer av talekvalitet støttes (jo lavere kvalitet, jo høyere ytelse og kortere reaksjonstid).

Ulempen med den statistiske modellen er den relativt lave kvaliteten på uttale, som ikke når nivået til synthesizere som genererer tale basert på en kombinasjon av fragmenter av naturlig tale, men likevel er resultatet ganske leselig og ligner å kringkaste et opptak fra en høyttaler . Til sammenligning er Silero-prosjektet, som gir en åpen talesyntesemotor basert på maskinlæringsteknologier og et sett med modeller for det russiske språket, overlegen i kvalitet enn RHVoice.

Det er 14 stemmealternativer tilgjengelig for det russiske språket, og 6 for engelsk. Stemmene er dannet basert på opptak av naturlig tale. I innstillingene kan du endre hastighet, tonehøyde og volum. Sonic-biblioteket kan brukes til å endre tempo. Det er mulig å automatisk oppdage og bytte språk basert på analyse av inndatateksten (for eksempel, for ord og sitater på et annet språk, kan en syntesemodell som er hjemmehørende i det språket brukes). Stemmeprofiler støttes, og definerer kombinasjoner av stemmer for forskjellige språk.

Kilde: opennet.ru

Legg til en kommentar