Lançamento do sintetizador de voz RHVoice 1.8.0

Foi lançado o sistema aberto de síntese de fala RHVoice 1.8.0, inicialmente desenvolvido para fornecer suporte de alta qualidade para o idioma russo, mas depois adaptado para outros idiomas, incluindo inglês, português, ucraniano, quirguiz, tártaro e georgiano. O código é escrito em C++ e distribuído sob a licença LGPL 2.1. Suporta trabalho em GNU/Linux, Windows e Android. O programa é compatível com interfaces TTS (text-to-speech) padrão para conversão de texto em fala: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) e Android Text-To-Speech API, mas também pode ser usado no NVDA leitor de tela. A criadora e principal desenvolvedora do RHVoice é Olga Yakovleva, que desenvolve o projeto apesar de ser completamente cega.

A versão 1.8 para a plataforma Android apresenta um novo sistema de gerenciamento de dados de voz e idioma que permite baixar atualizações de dados de voz sem atualizar o aplicativo móvel. As atualizações de dados para vozes e idiomas adicionados são verificadas automaticamente. Além disso, a nova versão introduz suporte para o idioma polonês e adiciona uma nova voz para o idioma macedônio. A compatibilidade com as versões alfa e beta mais recentes do leitor de tela NVDA é garantida. Foram corrigidos problemas de construção na plataforma Linux que ocorriam quando o Speech Dispatcher não estava presente.

Lembremos que o RHVoice utiliza os desenvolvimentos do projeto HTS (HMM/DNN-based Speech Synthesis System) e o método de síntese paramétrica com modelos estatísticos (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). A vantagem do modelo estatístico são os baixos custos indiretos e o baixo consumo de energia da CPU. Todas as operações são realizadas localmente no sistema do usuário. São suportados três níveis de qualidade de fala (quanto menor a qualidade, maior o desempenho e menor o tempo de reação).

A desvantagem do modelo estatístico é a qualidade relativamente baixa da pronúncia, que não atinge o nível dos sintetizadores que geram a fala a partir de uma combinação de fragmentos da fala natural, mas mesmo assim o resultado é bastante legível e lembra a transmissão de uma gravação de um alto-falante . Para efeito de comparação, o projeto Silero, que fornece um mecanismo de síntese de fala aberto baseado em tecnologias de aprendizado de máquina e um conjunto de modelos para o idioma russo, é superior em qualidade ao RHVoice.

Existem 14 opções de voz disponíveis para o idioma russo e 6 para o inglês. As vozes são formadas com base em gravações de fala natural. Nas configurações você pode alterar a velocidade, tom e volume. A biblioteca Sonic pode ser usada para alterar o andamento. É possível detectar e alternar idiomas automaticamente com base na análise do texto de entrada (por exemplo, para palavras e citações em outro idioma, pode ser usado um modelo de síntese nativo desse idioma). Perfis de voz são suportados, definindo combinações de vozes para diferentes idiomas.

Fonte: opennet.ru

Adicionar um comentário