Выпуск сінтэзатара прамовы RHVoice 1.6.0

Адбыўся выпуск адкрытай сістэмы сінтэзу маўлення RHVoice 1.6.0, якая першапачаткова развівалася для забеспячэння якаснай падтрымкі рускай мовы, але затым адаптаванай і для іншых моў, уключаючы англійскую, партугальскую, украінскую, кіргізскую, татарскую і грузінскую. Код напісаны на З і распаўсюджваецца пад ліцэнзіяй LGPL 2.1. Падтрымліваецца праца ў GNU/Linux, Windows і Android. Праграма сумяшчальная з тыпавымі TTS-інтэрфейсамі (text-to-speech) для пераўтварэння тэксту ў гаворку: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) і Android Text-To-Speech API, але таксама можа выкарыстоўвацца ў экранным рыдэры NVDA. Стваральнікам і асноўным распрацоўшчыкам RHVoice з'яўляецца Вольга Якаўлева, якая развівае праект нягледзячы на ​​поўную слепату.

У новай версіі дададзена 5 новых варыянтаў галасоў для рускай гаворкі. Рэалізавана падтрымка албанскай мовы. Абноўлены слоўнік для ўкраінскай мовы. Пашыраная падтрымка агучвання сімвалаў emoji. Праведзена праца па ўхіленні памылак у прыкладанні для платформы Android, спрошчаны імпарт карыстацкіх слоўнікаў, а таксама дададзеная падтрымка платформы Android 11. У ядро ​​рухавічка дададзены новыя налады і функцыянальныя магчымасці, уключаючы g2p.case, word_break і падтрымку фільтраў эквалізацыі.

Нагадаем, што ў RHVoice прымяняюцца напрацоўкі праекта HTS (HMM / DNN-based Speech Synthesis System) і параметрычны метад сінтэзу са статыстычнымі мадэлямі (Statistical Parametric Synthesis на базе HMM – Hidden Markov Model). Плюсам статыстычнай мадэлі з'яўляюцца нізкія накладныя выдаткі і непатрабавальнасць да магутнасці CPU. Усе аперацыі выконваюцца лакальна на сістэме карыстальніка. Падтрымліваецца тры ўзроўню якасці гаворкі (чым ніжэй якасць - тым вышэй прадукцыйнасць і менш час рэакцыі).

Мінусам статыстычнай мадэлі з'яўляецца адносна нізкая якасць вымаўлення, якое не дасягае ўзроўня сінтэзатараў, якія генеруюць гаворка на аснове камбінацыі фрагментаў натуральнай гаворкі, але тым не менш вынік суцэль пераборлівы і нагадвае трансляцыю запісу з гучнагаварыцеля. Для параўнання, праект Silero, які прадстаўляе адкрыты рухавічок для сінтэзу гаворкі на аснове тэхналогій машыннага навучання і набор мадэляў для рускай мовы, па якасці пераўзыходзіць RHVoice.

Для рускай мовы даступна 13 варыянтаў галасоў, для англійскай - 5. Галасы фарміруюцца на аснове запісаў натуральнай гаворкі. У наладах можна змяняць хуткасць, вышыню і гучнасць. Для змены тэмпу можа прымяняцца бібліятэка Sonic. Магчыма аўтаматычнае вызначэнне і пераключэнне мовы на аснове аналізу ўваходнага тэксту (напрыклад, для слоў і цытат на іншай мове можа выкарыстоўвацца родная для дадзенай мовы мадэль сінтэзу). Падтрымліваюцца галасавыя профілі, якія вызначаюць спалучэнне галасоў для розных моў.

Крыніца: opennet.ru

Дадаць каментар