Alliberament del sintetitzador de veu RHVoice 1.6.0

Es va llançar el sistema de síntesi de veu oberta RHVoice 1.6.0, desenvolupat inicialment per proporcionar suport d'alta qualitat per a la llengua russa, però després adaptat per a altres idiomes, com ara anglès, portuguès, ucraïnès, kirguiz, tàrtar i georgià. El codi està escrit en C++ i distribuït sota la llicència LGPL 2.1. Admet el treball en GNU/Linux, Windows i Android. El programa és compatible amb les interfícies estàndard TTS (text-to-speech) per convertir text a veu: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) i Android Text-to-Speech API, però també es pot utilitzar a NVDA lector de pantalla. La creadora i principal desenvolupadora de RHVoice és Olga Yakovleva, que desenvolupa el projecte tot i ser completament cega.

В новой версии добавлено 5 новых вариантов голосов для русской речи. Реализована поддержка албанского языка. Обновлён словарь для украинского языка. Расширена поддержка озвучивания символов emoji. Проведена работа по устранению ошибок в приложении для платформы Android, упрощён импорт пользовательских словарей, а также добавлена поддержка платформы Android 11. В ядро движка добавлены новые настройки и функциональные возможности, включая g2p.case, word_break и поддержку фильтров эквализации.

Recordem que RHVoice utilitza els desenvolupaments del projecte HTS (HMM/DNN-based Speech Synthesis System) i el mètode de síntesi paramètrica amb models estadístics (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). L'avantatge del model estadístic són els baixos costos generals i la potència de la CPU poc exigent. Totes les operacions es realitzen localment al sistema de l'usuari. S'admeten tres nivells de qualitat de la parla (com més baixa és la qualitat, més alt és el rendiment i més curt és el temps de reacció).

L'inconvenient del model estadístic és la qualitat relativament baixa de la pronunciació, que no arriba al nivell de sintetitzadors que generen parla a partir d'una combinació de fragments de parla natural, però tanmateix el resultat és força llegible i s'assembla a la difusió d'un enregistrament des d'un altaveu. . Per comparar, el projecte Silero, que proporciona un motor de síntesi de veu obert basat en tecnologies d'aprenentatge automàtic i un conjunt de models per a l'idioma rus, és de qualitat superior a RHVoice.

Hi ha 13 opcions de veu disponibles per a l'idioma rus i 5 per a l'anglès. Les veus es formen a partir d'enregistraments de parla natural. A la configuració podeu canviar la velocitat, el to i el volum. La biblioteca de Sonic es pot utilitzar per canviar el tempo. És possible detectar i canviar d'idioma automàticament basant-se en l'anàlisi del text d'entrada (per exemple, per a paraules i cometes en un altre idioma, es pot utilitzar un model de síntesi propi d'aquest idioma). S'admeten perfils de veu, que defineixen combinacions de veus per a diferents idiomes.

Font: opennet.ru

Afegeix comentari