Lançamento do sintetizador de voz RHVoice 1.6.0

Foi lançado o sistema aberto de síntese de fala RHVoice 1.6.0, inicialmente desenvolvido para fornecer suporte de alta qualidade para o idioma russo, mas depois adaptado para outros idiomas, incluindo inglês, português, ucraniano, quirguiz, tártaro e georgiano. O código é escrito em C++ e distribuído sob a licença LGPL 2.1. Suporta trabalho em GNU/Linux, Windows e Android. O programa é compatível com interfaces TTS (text-to-speech) padrão para conversão de texto em fala: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) e Android Text-To-Speech API, mas também pode ser usado no NVDA leitor de tela. A criadora e principal desenvolvedora do RHVoice é Olga Yakovleva, que desenvolve o projeto apesar de ser completamente cega.

A nova versão adiciona 5 novas opções de voz para a fala russa. O suporte ao idioma albanês foi implementado. O dicionário da língua ucraniana foi atualizado. O suporte para dublagem de personagens emoji foi expandido. Foram feitos trabalhos para eliminar erros no aplicativo para a plataforma Android, a importação de dicionários personalizados foi simplificada e foi adicionado suporte para a plataforma Android 11. Novas configurações e funcionalidades foram adicionadas ao núcleo do mecanismo, incluindo g2p. case, word_break e suporte para filtros de equalização.

Lembremos que o RHVoice utiliza os desenvolvimentos do projeto HTS (HMM/DNN-based Speech Synthesis System) e o método de síntese paramétrica com modelos estatísticos (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). A vantagem do modelo estatístico são os baixos custos indiretos e o baixo consumo de energia da CPU. Todas as operações são realizadas localmente no sistema do usuário. São suportados três níveis de qualidade de fala (quanto menor a qualidade, maior o desempenho e menor o tempo de reação).

A desvantagem do modelo estatístico é a qualidade relativamente baixa da pronúncia, que não atinge o nível dos sintetizadores que geram a fala a partir de uma combinação de fragmentos da fala natural, mas mesmo assim o resultado é bastante legível e lembra a transmissão de uma gravação de um alto-falante . Para efeito de comparação, o projeto Silero, que fornece um mecanismo de síntese de fala aberto baseado em tecnologias de aprendizado de máquina e um conjunto de modelos para o idioma russo, é superior em qualidade ao RHVoice.

Existem 13 opções de voz disponíveis para o idioma russo e 5 para o inglês. As vozes são formadas com base em gravações de fala natural. Nas configurações você pode alterar a velocidade, tom e volume. A biblioteca Sonic pode ser usada para alterar o andamento. É possível detectar e alternar idiomas automaticamente com base na análise do texto de entrada (por exemplo, para palavras e citações em outro idioma, pode ser usado um modelo de síntese nativo desse idioma). Perfis de voz são suportados, definindo combinações de vozes para diferentes idiomas.

Fonte: opennet.ru

Adicionar um comentário