Lëshimi i sintetizuesit të të folurit RHVoice 1.6.0

U lëshua sistemi i hapur i sintezës së të folurit RHVoice 1.6.0, i zhvilluar fillimisht për të ofruar mbështetje me cilësi të lartë për gjuhën ruse, por më pas u përshtat për gjuhë të tjera, duke përfshirë anglisht, portugalisht, ukrainisht, kirgize, tatarisht dhe gjeorgjisht. Kodi është shkruar në C++ dhe shpërndahet nën licencën LGPL 2.1. Mbështet punën në GNU/Linux, Windows dhe Android. Programi është i pajtueshëm me ndërfaqet standarde TTS (tekst-në-fjalë) për konvertimin e tekstit në të folur: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) dhe Android Text-to-Speech API, por mund të përdoret gjithashtu në NVDA lexues ekrani. Krijuesi dhe zhvilluesi kryesor i RHVoice është Olga Yakovleva, e cila zhvillon projektin pavarësisht se është plotësisht e verbër.

Versioni i ri shton 5 opsione të reja zanore për fjalimin rusisht. Mbështetja e gjuhës shqipe është zbatuar. Fjalori për gjuhën ukrainase është përditësuar. Mbështetja për aktrimin zanor të personazheve emoji është zgjeruar. Është punuar për eliminimin e gabimeve në aplikacionin për platformën Android, është thjeshtuar importimi i fjalorëve me porosi dhe është shtuar mbështetja për platformën Android 11. Në bërthamën e motorit janë shtuar cilësime dhe funksionalitete të reja, përfshirë g2p. case, word_break dhe mbështetje për filtrat e barazimit.

Kujtojmë se RHVoice përdor zhvillimet e projektit HTS (HMM/DNN-based Speech Synthesis System) dhe metodën e sintezës parametrike me modele statistikore (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). Avantazhi i modelit statistikor është kostoja e ulët e përgjithshme dhe fuqia e pakërkuar e CPU-së. Të gjitha operacionet kryhen në nivel lokal në sistemin e përdoruesit. Mbështeten tre nivele të cilësisë së të folurit (sa më e ulët të jetë cilësia, aq më e lartë është performanca dhe aq më e shkurtër është koha e reagimit).

Ana negative e modelit statistikor është cilësia relativisht e ulët e shqiptimit, e cila nuk arrin nivelin e sintetizuesve që gjenerojnë të folur bazuar në një kombinim të fragmenteve të të folurit natyror, por megjithatë rezultati është mjaft i lexueshëm dhe i ngjan transmetimit të një regjistrimi nga një altoparlant. . Për krahasim, projekti Silero, i cili siguron një motor të hapur të sintezës së të folurit bazuar në teknologjitë e mësimit të makinerive dhe një grup modelesh për gjuhën ruse, është më i lartë në cilësi ndaj RHVoice.

Ekzistojnë 13 opsione zanore të disponueshme për gjuhën ruse dhe 5 për anglisht. Zërat formohen bazuar në regjistrimet e të folurit natyral. Në cilësimet mund të ndryshoni shpejtësinë, lartësinë dhe volumin. Biblioteka Sonic mund të përdoret për të ndryshuar ritmin. Është e mundur që automatikisht të zbulohen dhe ndërrohen gjuhët bazuar në analizën e tekstit hyrës (për shembull, për fjalët dhe thëniet në një gjuhë tjetër, mund të përdoret një model sinteze vendas në atë gjuhë). Profilet e zërit mbështeten, duke përcaktuar kombinimet e zërave për gjuhë të ndryshme.

Burimi: opennet.ru

Shto një koment