RHVoice 1.6.0 spraaksintetiseerder vrystelling

Die oopbron-spraaksintesestelsel RHVoice 1.6.0 is vrygestel, aanvanklik ontwikkel om hoëgehalte-ondersteuning vir die Russiese taal te bied, maar toe aangepas vir ander tale, insluitend Engels, Portugees, Oekraïens, Kirgisies, Tataars en Georgies. Die kode is in C++ geskryf en onder die LGPL 2.1-lisensie versprei. Werk word ondersteun in GNU/Linux, Windows en Android. Die program is versoenbaar met tipiese TTS (teks-na-spraak)-koppelvlakke vir teks-na-spraak: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) en Android Text-to-Speech API, maar kan ook gebruik word in die NVDA skermleser. Die skepper en hoofontwikkelaar van RHVoice is Olga Yakovleva, wat die projek ontwikkel ten spyte daarvan dat sy heeltemal blind is.

Die nuwe weergawe voeg 5 nuwe stemopsies vir Russiese spraak by. Albanese taalondersteuning is geïmplementeer. Die woordeboek vir die Oekraïens taal is opgedateer. Ondersteuning vir stemvertolking van emoji-karakters is uitgebrei. Daar is gewerk om foute in die toepassing vir die Android-platform uit te skakel, die invoer van pasgemaakte woordeboeke is vereenvoudig en ondersteuning vir die Android 11-platform is bygevoeg. Nuwe instellings en funksionaliteit is by die enjinkern gevoeg, insluitend g2p. case, word_break en ondersteuning vir gelykmakingsfilters.

Onthou dat RHVoice die ontwikkelings van die HTS-projek (HMM / DNN-gebaseerde Spraaksintesestelsel) en die parametriese sintesemetode met statistiese modelle (Statistical Parametric Synthesis gebaseer op HMM - Hidden Markov Model) gebruik. Die voordeel van die statistiese model is lae bokoste en veeleisende SVE-krag. Alle bewerkings word plaaslik op die gebruiker se stelsel uitgevoer. Drie vlakke van spraakkwaliteit word ondersteun (hoe laer die kwaliteit, hoe hoër die werkverrigting en hoe korter die reaksietyd).

Die nadeel van die statistiese model is die relatief lae kwaliteit van uitspraak, wat nie die vlak bereik van sintetiseerders wat spraak genereer gebaseer op 'n kombinasie van fragmente van natuurlike spraak nie, maar nietemin is die resultaat redelik leesbaar en lyk soos 'n uitsaaiopname vanaf 'n luidspreker . In vergelyking, die Silero-projek, wat 'n oop enjin bied vir spraaksintese gebaseer op masjienleertegnologieë en 'n stel modelle vir die Russiese taal, oortref RHVoice in kwaliteit.

Vir die Russiese taal is 13 stemopsies beskikbaar, vir Engels - 5. Stemme word gevorm op grond van natuurlike spraakopnames. In die instellings kan jy die spoed, toonhoogte en volume verander. Die Sonic-biblioteek kan gebruik word om die tempo te verander. Dit is moontlik om die taal outomaties op te spoor en te verander op grond van die ontleding van die invoerteks (byvoorbeeld, vir woorde en aanhalings in 'n ander taal, kan 'n inheemse sintesemodel vir hierdie taal gebruik word). Stemprofiele word ondersteun wat kombinasies van stemme vir verskillende tale definieer.

Bron: opennet.ru

Voeg 'n opmerking