RHVoice 1.6.0 nga pagpagawas sa synthesizer sa pagsulti

Ang open speech synthesis system nga RHVoice 1.6.0 gibuhian, sa sinugdan gimugna aron paghatag og taas nga kalidad nga suporta alang sa Russian nga pinulongan, apan unya gipahaum alang sa ubang mga pinulongan, lakip ang English, Portuguese, Ukrainian, Kyrgyz, Tatar ug Georgian. Ang code gisulat sa C++ ug giapod-apod ubos sa LGPL 2.1 nga lisensya. Nagsuporta sa trabaho sa GNU/Linux, Windows ug Android. Ang programa kay compatible sa standard TTS (text-to-speech) interface para sa pag-convert sa text ngadto sa speech: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) ug Android Text-To-Speech API, pero pwede sab gamiton sa NVDA screen reader. Ang tiglalang ug nag-unang developer sa RHVoice mao si Olga Yakovleva, kinsa nagpalambo sa proyekto bisan pa sa hingpit nga buta.

Ang bag-ong bersyon midugang 5 ka bag-ong mga kapilian sa tingog alang sa Russian nga sinultihan. Ang suporta sa pinulongang Albaniano gipatuman. Ang diksyonaryo para sa Ukrainian nga pinulongan gi-update. Ang suporta alang sa voice acting sa mga karakter sa emoji gipalapdan. Gihimo ang trabaho aron mawagtang ang mga sayup sa aplikasyon alang sa platform sa Android, gipasimple ang pag-import sa mga custom nga diksyonaryo, ug gidugang ang suporta alang sa platform sa Android 11. Gidugang ang bag-ong mga setting ug gamit sa core sa makina, lakip ang g2p. kaso, word_break ug suporta para sa equalization filters.

Atong hinumdoman nga ang RHVoice naggamit sa mga kalamboan sa proyekto sa HTS (HMM/DNN-based Speech Synthesis System) ug ang parametric synthesis nga pamaagi uban sa statistical models (Statistical Parametric Synthesis base sa HMM - Hidden Markov Model). Ang bentaha sa istatistikal nga modelo mao ang mubu nga gasto sa overhead ug dili kinahanglan nga gahum sa CPU. Ang tanan nga mga operasyon gihimo sa lokal nga sistema sa user. Tulo ka lebel sa kalidad sa sinultihan ang gisuportahan (mas ubos ang kalidad, mas taas ang pasundayag ug mas mubo ang oras sa reaksyon).

Ang downside sa istatistikal nga modelo mao ang medyo ubos nga kalidad sa paglitok, nga wala makaabot sa lebel sa mga synthesizer nga nagmugna sa sinultihan base sa kombinasyon sa mga tipik sa natural nga sinultihan, apan bisan pa niana ang resulta mao ang nabasa ug susama sa pagsibya sa usa ka recording gikan sa loudspeaker. . Alang sa pagtandi, ang proyekto sa Silero, nga naghatag usa ka bukas nga sinultihan nga synthesis nga makina nga gibase sa mga teknolohiya sa pagkat-on sa makina ug usa ka hugpong sa mga modelo alang sa sinultian nga Ruso, labaw sa kalidad sa RHVoice.

Adunay 13 ka opsyon sa tingog nga magamit alang sa Russian nga pinulongan, ug 5 alang sa English. Ang mga tingog naporma base sa mga rekording sa natural nga sinultihan. Sa mga setting mahimo nimong usbon ang katulin, pitch ug volume. Ang Sonic library mahimong gamiton sa pag-usab sa tempo. Posible nga awtomatiko nga makit-an ug ibalhin ang mga lengguwahe base sa pag-analisar sa input nga teksto (pananglitan, alang sa mga pulong ug mga kinutlo sa laing lengguwahe, usa ka modelo sa synthesis nga lumad sa kana nga lengguwahe ang magamit). Gisuportahan ang mga profile sa tingog, nga naghubit sa mga kombinasyon sa mga tingog alang sa lain-laing mga pinulongan.

Source: opennet.ru

Idugang sa usa ka comment