RHVoice 1.8.0 puhesyntetisaattorin julkaisu

RHVoice 1.8.0, avoimen lähdekoodin puhesynteesijärjestelmä julkaistiin, alun perin kehitetty tarjoamaan korkealaatuista tukea venäjän kielelle, mutta sitten mukautettu muille kielille, kuten englanniksi, portugaliksi, ukrainaksi, kirgisiksi, tatariksi ja georgiaksi. Koodi on kirjoitettu C++-kielellä ja jaettu LGPL 2.1 -lisenssillä. Työtä tuetaan GNU/Linuxissa, Windowsissa ja Androidissa. Ohjelma on yhteensopiva tyypillisten tekstistä puheeksi -rajapintojen kanssa: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) ja Android Text-To-Speech API, mutta sitä voidaan käyttää myös NVDA näytönlukija. RHVoicen luoja ja pääkehittäjä on Olga Yakovleva, joka kehittää projektia täysin sokeudesta huolimatta.

Android-alustan versio 1.8 esittelee uuden puhe- ja kielitietojen hallintajärjestelmän, jonka avulla voit ladata puhedatan päivityksiä päivittämättä mobiilisovellusta. Lisättyjen äänien ja kielten tietopäivitykset tarkistetaan automaattisesti. Lisäksi uusi julkaisu esittelee tuen puolan kielelle ja lisää uuden äänen makedonian kielelle. Yhteensopivuus NVDA-näytönlukuohjelman uusimpien alfa- ja betaversioiden kanssa varmistetaan. Korjattu Linux-alustalle rakentamiseen liittyvät ongelmat, jotka ilmenivät, kun Speech Dispatcher ei ollut läsnä.

Muista, että RHVoice käyttää HTS-projektin (HMM / DNN-pohjainen Speech Synthesis System) ja parametrisen synteesimenetelmän kehitystä tilastollisten mallien kanssa (HMM:iin perustuva tilastollinen parametrinen synteesi - Hidden Markov Model). Tilastollisen mallin etuna on alhainen yleiskustannus ja vaatimaton suorittimen teho. Kaikki toiminnot suoritetaan paikallisesti käyttäjän järjestelmässä. Puheenlaadun kolmea tasoa tuetaan (mitä huonompi laatu, sitä korkeampi suorituskyky ja lyhyempi vasteaika).

Tilastollisen mallin haittapuolena on suhteellisen heikko ääntämisen laatu, joka ei yritetä luonnollisen puheen katkelmien yhdistelmään perustuvaa puhetta tuottavien syntetisaattoreiden tasoa, mutta siitä huolimatta tulos on melko luettava ja muistuttaa kaiuttimesta lähetettyä äänitystä. . Vertailun vuoksi Silero-projekti, joka tarjoaa avoimen koneoppimistekniikoihin perustuvan puhesynteesin moottorin ja venäjän kielen mallisarjan, ylittää laadultaan RHVoicen.

Äänivaihtoehtoja venäjälle on 14 ja englannille 6. Äänet muodostetaan luonnollisen puheen tallenteiden perusteella. Asetuksissa voit muuttaa nopeutta, sävelkorkeutta ja äänenvoimakkuutta. Sonic-kirjastoa voidaan käyttää tempon muuttamiseen. On mahdollista tunnistaa ja vaihtaa kieli automaattisesti syötetyn tekstin analyysin perusteella (esimerkiksi toisen kielen sanojen ja lainausten yhteydessä voidaan käyttää tämän kielen alkuperäistä synteesimallia). Ääniprofiileja tuetaan, jotka määrittävät ääniyhdistelmät eri kielille.

Lähde: opennet.ru

Lisää kommentti