Rilascio del sintetizzatore vocale RHVoice 1.8.0

È stato rilasciato il sistema di sintesi vocale aperto RHVoice 1.8.0, inizialmente sviluppato per fornire un supporto di alta qualità per la lingua russa, ma poi adattato per altre lingue, tra cui inglese, portoghese, ucraino, kirghiso, tataro e georgiano. Il codice è scritto in C++ e distribuito sotto la licenza LGPL 2.1. Supporta il lavoro su GNU/Linux, Windows e Android. Il programma è compatibile con le interfacce TTS (sintesi vocale) standard per la conversione del testo in voce: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) e Android Text-To-Speech API, ma può essere utilizzato anche in NVDA lettore di schermo. L'ideatrice e principale sviluppatrice di RHVoice è Olga Yakovleva, che sviluppa il progetto nonostante sia completamente cieca.

La versione 1.8 per la piattaforma Android introduce un nuovo sistema di gestione dei dati vocali e linguistici che consente di scaricare gli aggiornamenti dei dati vocali senza aggiornare l'applicazione mobile. Gli aggiornamenti dei dati per le voci e le lingue aggiunte vengono controllati automaticamente. Inoltre, la nuova versione introduce il supporto per la lingua polacca e aggiunge una nuova voce per la lingua macedone. È garantita la compatibilità con le ultime versioni alpha e beta dello screen reader NVDA. Risolti i problemi con la creazione sulla piattaforma Linux che si verificavano quando Speech Dispatcher non era presente.

Ricordiamo che RHVoice utilizza gli sviluppi del progetto HTS (Sistema di sintesi vocale basato su HMM/DNN) e il metodo di sintesi parametrica con modelli statistici (Sintesi parametrica statistica basata su HMM - Hidden Markov Model). Il vantaggio del modello statistico sono i bassi costi generali e la scarsa potenza della CPU. Tutte le operazioni vengono eseguite localmente sul sistema dell'utente. Sono supportati tre livelli di qualità vocale (minore è la qualità, maggiore è la prestazione e minore è il tempo di reazione).

Lo svantaggio del modello statistico è la qualità relativamente bassa della pronuncia, che non raggiunge il livello dei sintetizzatori che generano il parlato sulla base di una combinazione di frammenti del discorso naturale, ma tuttavia il risultato è abbastanza leggibile e ricorda la trasmissione di una registrazione da un altoparlante . Per fare un confronto, il progetto Silero, che fornisce un motore di sintesi vocale aperto basato su tecnologie di apprendimento automatico e una serie di modelli per la lingua russa, è di qualità superiore a RHVoice.

Per la lingua russa sono disponibili 14 opzioni vocali e per l'inglese 6. Le voci vengono formate sulla base delle registrazioni del parlato naturale. Nelle impostazioni è possibile modificare la velocità, il tono e il volume. La libreria Sonic può essere utilizzata per modificare il tempo. È possibile rilevare e cambiare lingua automaticamente in base all'analisi del testo di input (ad esempio, per parole e citazioni in un'altra lingua, è possibile utilizzare un modello di sintesi nativo di quella lingua). Sono supportati i profili vocali, che definiscono combinazioni di voci per lingue diverse.

Fonte: opennet.ru

Aggiungi un commento