RHVoice 1.8.0-eldono de parolsintezilo

La malferma parolsinteza sistemo RHVoice 1.8.0 estis publikigita, komence evoluigita por provizi altkvalitan subtenon por la rusa lingvo, sed poste adaptita por aliaj lingvoj, inkluzive de la angla, portugala, ukraina, kirgiza, tatara kaj kartvela. La kodo estas skribita en C++ kaj distribuita sub la LGPL 2.1 permesilo. Subtenas laboron sur GNU/Linukso, Vindozo kaj Android. La programo kongruas kun normaj TTS (teksto-al-parola) interfacoj por konverti tekston al parolado: SAPI5 (Vindozo), Speech Dispatcher (GNU/Linukso) kaj Android Text-To-Speech API, sed ankaŭ povas esti uzata en la NVDA ekranlegilo. La kreinto kaj ĉefa ellaboranto de RHVoice estas Olga Yakovleva, kiu disvolvas la projekton malgraŭ esti tute blinda.

Versio 1.8 por la Android-platformo enkondukas novan sistemon pri administrado de voĉaj kaj lingvaj datumoj, kiu ebligas al vi elŝuti ĝisdatigojn pri voĉaj datumoj sen ĝisdatigi la poŝtelefonan aplikaĵon. Datumaj ĝisdatigoj por aldonitaj voĉoj kaj lingvoj estas kontrolitaj aŭtomate. Krome, la nova eldono enkondukas subtenon por la pola lingvo kaj aldonas novan voĉon por la makedona lingvo. Kongrueco kun la plej novaj alfa kaj beta-eldonoj de la ekranlegilo NVDA estas certigita. Korektis problemojn pri konstruado sur la Linukso-platformo, kiuj okazis kiam Speech Dispatcher ne ĉeestis.

Ni rememoru, ke RHVoice uzas la evoluojn de la HTS-projekto (HMM/DNN-bazita Speech Synthesis System) kaj la parametrikan sintezmetodon kun statistikaj modeloj (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). La avantaĝo de la statistika modelo estas malaltaj superkostoj kaj nepostulema CPU-potenco. Ĉiuj operacioj estas faritaj loke sur la sistemo de la uzanto. Tri niveloj de parolkvalito estas subtenataj (ju pli malalta la kvalito, des pli alta la agado kaj des pli mallonga la reagtempo).

La malavantaĝo de la statistika modelo estas la relative malalta kvalito de prononco, kiu ne atingas la nivelon de sinteziloj, kiuj generas parolon surbaze de kombinaĵo de fragmentoj de natura parolo, sed tamen la rezulto estas sufiĉe legebla kaj similas al elsendado de registrado de laŭtparolilo. . Por komparo, la projekto Silero, kiu disponigas malferman parolsintezan motoron bazitan sur maŝinlernado-teknologioj kaj aro da modeloj por la rusa lingvo, estas pli alta en kvalito ol RHVoice.

Estas 14 voĉebloj disponeblaj por la rusa lingvo, kaj por la angla 6. La voĉoj estas formitaj surbaze de registradoj de natura parolado. En la agordoj vi povas ŝanĝi la rapidecon, tonalton kaj volumon. La Sonic-biblioteko povas esti uzata por ŝanĝi la takton. Eblas aŭtomate detekti kaj ŝanĝi lingvojn surbaze de analizo de la eniga teksto (ekzemple, por vortoj kaj citaĵoj en alia lingvo, sinteza modelo denaska de tiu lingvo povas esti uzata). Voĉaj profiloj estas subtenataj, difinante kombinaĵojn de voĉoj por malsamaj lingvoj.

fonto: opennet.ru

Aldoni komenton