Lëshimi i sintetizuesit të të folurit RHVoice 1.8.0

U lëshua sistemi i hapur i sintezës së të folurit RHVoice 1.8.0, i zhvilluar fillimisht për të ofruar mbështetje me cilësi të lartë për gjuhën ruse, por më pas u përshtat për gjuhë të tjera, duke përfshirë anglisht, portugalisht, ukrainisht, kirgize, tatarisht dhe gjeorgjisht. Kodi është shkruar në C++ dhe shpërndahet nën licencën LGPL 2.1. Mbështet punën në GNU/Linux, Windows dhe Android. Programi është i pajtueshëm me ndërfaqet standarde TTS (tekst-në-fjalë) për konvertimin e tekstit në të folur: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) dhe Android Text-to-Speech API, por mund të përdoret gjithashtu në NVDA lexues ekrani. Krijuesi dhe zhvilluesi kryesor i RHVoice është Olga Yakovleva, e cila zhvillon projektin pavarësisht se është plotësisht e verbër.

Versioni 1.8 për platformën Android prezanton një sistem të ri të menaxhimit të të dhënave zanore dhe gjuhësore që ju lejon të shkarkoni përditësime të të dhënave zanore pa përditësuar aplikacionin celular. Përditësimet e të dhënave për zërat dhe gjuhët e shtuara kontrollohen automatikisht. Përveç kësaj, versioni i ri paraqet mbështetje për gjuhën polake dhe shton një zë të ri për gjuhën maqedonase. Sigurohet përputhshmëria me versionet më të fundit alfa dhe beta të lexuesit të ekranit NVDA. Rregulloi problemet me ndërtimin në platformën Linux që ndodhën kur Dispech Dispatcher nuk ishte i pranishëm.

Kujtojmë se RHVoice përdor zhvillimet e projektit HTS (HMM/DNN-based Speech Synthesis System) dhe metodën e sintezës parametrike me modele statistikore (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Avantazhi i modelit statistikor është kostoja e ulët e përgjithshme dhe fuqia e pakërkuar e CPU-së. Të gjitha operacionet kryhen në nivel lokal në sistemin e përdoruesit. Mbështeten tre nivele të cilësisë së të folurit (sa më e ulët të jetë cilësia, aq më e lartë është performanca dhe aq më e shkurtër është koha e reagimit).

Ana negative e modelit statistikor është cilësia relativisht e ulët e shqiptimit, e cila nuk arrin nivelin e sintetizuesve që gjenerojnë të folur bazuar në një kombinim të fragmenteve të të folurit natyror, por megjithatë rezultati është mjaft i lexueshëm dhe i ngjan transmetimit të një regjistrimi nga një altoparlant. . Për krahasim, projekti Silero, i cili siguron një motor të hapur të sintezës së të folurit bazuar në teknologjitë e mësimit të makinerive dhe një grup modelesh për gjuhën ruse, është më i lartë në cilësi ndaj RHVoice.

Ekzistojnë 14 opsione zanore të disponueshme për gjuhën ruse dhe 6 për anglisht. Zërat formohen bazuar në regjistrimet e të folurit natyral. Në cilësimet mund të ndryshoni shpejtësinë, lartësinë dhe volumin. Biblioteka Sonic mund të përdoret për të ndryshuar ritmin. Është e mundur që automatikisht të zbulohen dhe ndërrohen gjuhët bazuar në analizën e tekstit hyrës (për shembull, për fjalët dhe thëniet në një gjuhë tjetër, mund të përdoret një model sinteze vendas në atë gjuhë). Profilet e zërit mbështeten, duke përcaktuar kombinimet e zërave për gjuhë të ndryshme.

Burimi: opennet.ru

Shto një koment