Выпуск сінтэзатара прамовы RHVoice 1.8.0

Адбыўся выпуск адкрытай сістэмы сінтэзу маўлення RHVoice 1.8.0, якая першапачаткова развівалася для забеспячэння якаснай падтрымкі рускай мовы, але затым адаптаванай і для іншых моў, уключаючы англійскую, партугальскую, украінскую, кіргізскую, татарскую і грузінскую. Код напісаны на З і распаўсюджваецца пад ліцэнзіяй LGPL 2.1. Падтрымліваецца праца ў GNU/Linux, Windows і Android. Праграма сумяшчальная з тыпавымі TTS-інтэрфейсамі (text-to-speech) для пераўтварэння тэксту ў гаворку: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) і Android Text-To-Speech API, але таксама можа выкарыстоўвацца ў экранным рыдэры NVDA. Стваральнікам і асноўным распрацоўшчыкам RHVoice з'яўляецца Вольга Якаўлева, якая развівае праект нягледзячы на ​​поўную слепату.

У версіі 1.8 для платформы Android прапанавана новая сістэма кіравання галасавымі і моўнымі дадзенымі, якая дазваляе загружаць абнаўленні галасавых дадзеных без абнаўлення мабільнага прыкладання. Праверка з'яўлення абнаўленняў дадзеных для дададзеных галасоў і моў робіцца аўтаматычна. Акрамя таго, у новым выпуску рэалізавана падтрымка польскай мовы і дададзены новы голас для македонскай мовы. Забяспечана сумяшчальнасць са свежымі альфа-і бэта-выпускамі экраннага рыдара NVDA. Ухілены праблемы са зборкай на платформе Linux, якія ўзнікалі пры адсутнасці Speech Dispatcher.

Нагадаем, што ў RHVoice прымяняюцца напрацоўкі праекта HTS (HMM / DNN-based Speech Synthesis System) і параметрычны метад сінтэзу са статыстычнымі мадэлямі (Statistical Parametric Synthesis на базе HMM – Hidden Markov Model). Плюсам статыстычнай мадэлі з'яўляюцца нізкія накладныя выдаткі і непатрабавальнасць да магутнасці CPU. Усе аперацыі выконваюцца лакальна на сістэме карыстальніка. Падтрымліваецца тры ўзроўню якасці гаворкі (чым ніжэй якасць - тым вышэй прадукцыйнасць і менш час рэакцыі).

Мінусам статыстычнай мадэлі з'яўляецца адносна нізкая якасць вымаўлення, якое не дасягае ўзроўня сінтэзатараў, якія генеруюць гаворка на аснове камбінацыі фрагментаў натуральнай гаворкі, але тым не менш вынік суцэль пераборлівы і нагадвае трансляцыю запісу з гучнагаварыцеля. Для параўнання, праект Silero, які прадстаўляе адкрыты рухавічок для сінтэзу гаворкі на аснове тэхналогій машыннага навучання і набор мадэляў для рускай мовы, па якасці пераўзыходзіць RHVoice.

Для рускай мовы даступна 14 варыянтаў галасоў, для англійскай - 6. Галасы фарміруюцца на аснове запісаў натуральнай гаворкі. У наладах можна змяняць хуткасць, вышыню і гучнасць. Для змены тэмпу можа прымяняцца бібліятэка Sonic. Магчыма аўтаматычнае вызначэнне і пераключэнне мовы на аснове аналізу ўваходнага тэксту (напрыклад, для слоў і цытат на іншай мове можа выкарыстоўвацца родная для дадзенай мовы мадэль сінтэзу). Падтрымліваюцца галасавыя профілі, якія вызначаюць спалучэнне галасоў для розных моў.

Крыніца: opennet.ru

Дадаць каментар