RHVoice 1.6.0 runas sintezatora izlaišana

Tika izlaista atvērtā pirmkoda runas sintēzes sistēma RHVoice 1.6.0, kas sākotnēji tika izstrādāta, lai nodrošinātu augstas kvalitātes atbalstu krievu valodai, bet pēc tam tika pielāgota citām valodām, tostarp angļu, portugāļu, ukraiņu, kirgīzu, tatāru un gruzīnu valodai. Kods ir rakstīts C++ valodā un tiek izplatīts saskaņā ar LGPL 2.1 licenci. Darbs tiek atbalstīts operētājsistēmās GNU/Linux, Windows un Android. Programma ir saderīga ar tipiskām teksta pārvēršanas runā saskarnēm TTS (teksta pārvēršana runā): SAPI5 (Windows), Speech Dispatcher (GNU/Linux) un Android Text-To-Speech API, taču to var izmantot arī NVDA ekrāna lasītājs. RHVoice radītāja un galvenā izstrādātāja ir Olga Jakovļeva, kura izstrādā projektu, neskatoties uz to, ka ir pilnīgi akla.

Jaunajā versijā ir pievienotas 5 jaunas balss opcijas krievu runai. Ir ieviests albāņu valodas atbalsts. Ukraiņu valodas vārdnīca ir atjaunināta. Ir paplašināts atbalsts emocijzīmju varoņu balss darbībai. Ir veikts darbs, lai novērstu kļūdas Android platformas aplikācijā, vienkāršota pielāgoto vārdnīcu importēšana, kā arī pievienots Android 11 platformas atbalsts. Dzinēja kodolam ir pievienoti jauni iestatījumi un funkcionalitāte, tostarp g2p. case, word_break un izlīdzināšanas filtru atbalsts.

Atgādinām, ka RHVoice izmanto HTS projekta (HMM / DNN-based Speech Synthesis System) un parametriskās sintēzes metodes izstrādnes ar statistikas modeļiem (Statistical Parametric Synthesis, pamatojoties uz HMM - Hidden Markov Model). Statistikas modeļa priekšrocība ir zemas pieskaitāmās izmaksas un mazprasīga CPU jauda. Visas darbības tiek veiktas lokāli lietotāja sistēmā. Tiek atbalstīti trīs runas kvalitātes līmeņi (jo zemāka kvalitāte, jo augstāka veiktspēja un īsāks reakcijas laiks).

Statistikas modeļa trūkums ir salīdzinoši zemā izrunas kvalitāte, kas nesasniedz sintezatoru līmeni, kas ģenerē runu, balstoties uz dabiskās runas fragmentu kombināciju, taču, neskatoties uz to, rezultāts ir diezgan salasāms un atgādina apraides ierakstu no skaļruņa. . Salīdzinājumam, projekts Silero, kas nodrošina atvērtu runas sintēzes dzinēju, pamatojoties uz mašīnmācīšanās tehnoloģijām, un krievu valodas modeļu kopumu, pēc kvalitātes pārspēj RHVoice.

Krievu valodai ir pieejamas 13 balss iespējas, angļu valodai - 5. Balsis tiek veidotas, balstoties uz dabiskās runas ierakstiem. Iestatījumos varat mainīt ātrumu, augstumu un skaļumu. Sonic bibliotēku var izmantot, lai mainītu tempu. Ir iespējams automātiski noteikt un pārslēgt valodu, pamatojoties uz ievades teksta analīzi (piemēram, vārdiem un citātiem citā valodā, var izmantot šīs valodas sintēzes modeli). Tiek atbalstīti balss profili, kas nosaka dažādu valodu balsu kombinācijas.

Avots: opennet.ru

Pievieno komentāru