O RHVoice 1.6.0, um sistema de síntese de voz de código aberto, foi lançado. Inicialmente desenvolvido para fornecer suporte de alta qualidade ao russo, ele foi adaptado para outros idiomas, incluindo inglês, português, ucraniano, quirguiz, tártaro e georgiano. O código é escrito em C++ e distribuído sob a licença LGPL 2.1. Há também suporte para GNU/Linux.Linux, Windows и AndroidO programa é compatível com interfaces TTS (texto para fala) típicas para conversão de texto em fala: SAPI5 (Windows), Despachador de Voz (GNU/Linux) E Android A API de conversão de texto em fala funciona também com o leitor de tela NVDA. A criadora e principal desenvolvedora do RHVoice é Olga Yakovleva, que continua a desenvolver o projeto apesar de ser completamente cega.
A nova versão adiciona 5 novas opções de voz para o idioma russo. O suporte ao idioma albanês foi implementado. O dicionário ucraniano foi atualizado. O suporte à pronúncia de emojis foi expandido. Correções de bugs foram implementadas no aplicativo da plataforma. AndroidA importação de dicionários de usuário foi simplificada e foi adicionado suporte à plataforma. Android 11. Novas configurações e funcionalidades foram adicionadas ao núcleo do mecanismo, incluindo g2p.case, word_break e suporte para filtros de equalização.
Lembremos que o RHVoice utiliza os desenvolvimentos do projeto HTS (HMM/DNN-based Speech Synthesis System) e o método de síntese paramétrica com modelos estatísticos (Statistical Parametric Synthesis based on HMM - Hidden Markov Model). A vantagem do modelo estatístico são os baixos custos indiretos e o baixo consumo de energia da CPU. Todas as operações são realizadas localmente no sistema do usuário. São suportados três níveis de qualidade de fala (quanto menor a qualidade, maior o desempenho e menor o tempo de reação).
A desvantagem do modelo estatístico é a qualidade relativamente baixa da pronúncia, que não atinge o nível dos sintetizadores que geram a fala a partir de uma combinação de fragmentos da fala natural, mas mesmo assim o resultado é bastante legível e lembra a transmissão de uma gravação de um alto-falante . Para efeito de comparação, o projeto Silero, que fornece um mecanismo de síntese de fala aberto baseado em tecnologias de aprendizado de máquina e um conjunto de modelos para o idioma russo, é superior em qualidade ao RHVoice.
Existem 13 opções de voz disponíveis para o idioma russo e 5 para o inglês. As vozes são formadas com base em gravações de fala natural. Nas configurações você pode alterar a velocidade, tom e volume. A biblioteca Sonic pode ser usada para alterar o andamento. É possível detectar e alternar idiomas automaticamente com base na análise do texto de entrada (por exemplo, para palavras e citações em outro idioma, pode ser usado um modelo de síntese nativo desse idioma). Perfis de voz são suportados, definindo combinações de vozes para diferentes idiomas.
Fonte: opennet.ru
