RHVoice 1.6.0 release van spraaksynthesizer

Het open spraaksynthesesysteem RHVoice 1.6.0 werd uitgebracht, aanvankelijk ontwikkeld om hoogwaardige ondersteuning te bieden voor de Russische taal, maar vervolgens aangepast voor andere talen, waaronder Engels, Portugees, Oekraïens, Kirgizisch, Tataars en Georgisch. De code is geschreven in C++ en wordt gedistribueerd onder de LGPL 2.1-licentie. Ondersteunt werk op GNU/Linux, Windows en Android. Het programma is compatibel met standaard TTS (text-to-speech) interfaces voor het omzetten van tekst naar spraak: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) en Android Text-To-Speech API, maar kan ook gebruikt worden in de NVDA schermlezer. De bedenker en hoofdontwikkelaar van RHVoice is Olga Yakovleva, die het project ontwikkelt ondanks dat ze volledig blind is.

De nieuwe versie voegt 5 nieuwe stemopties toe voor Russische spraak. Ondersteuning voor de Albanese taal is geïmplementeerd. Het woordenboek voor de Oekraïense taal is bijgewerkt. Ondersteuning voor stemacteren van emoji-personages is uitgebreid. Er is gewerkt aan het elimineren van fouten in de applicatie voor het Android-platform, het importeren van aangepaste woordenboeken is vereenvoudigd en er is ondersteuning toegevoegd voor het Android 11-platform. Er zijn nieuwe instellingen en functionaliteit toegevoegd aan de motorkern, waaronder g2p. case, word_break en ondersteuning voor egalisatiefilters.

Laten we niet vergeten dat RHVoice gebruik maakt van de ontwikkelingen van het HTS-project (HMM/DNN-gebaseerd spraaksynthesesysteem) en de parametrische synthesemethode met statistische modellen (Statistische Parametrische Synthese gebaseerd op HMM - Hidden Markov Model). Het voordeel van het statistische model zijn de lage overheadkosten en het weinig veeleisende CPU-vermogen. Alle bewerkingen worden lokaal op het systeem van de gebruiker uitgevoerd. Er worden drie niveaus van spraakkwaliteit ondersteund (hoe lager de kwaliteit, hoe hoger de prestaties en hoe korter de reactietijd).

Het nadeel van het statistische model is de relatief lage kwaliteit van de uitspraak, die niet het niveau bereikt van synthesizers die spraak genereren op basis van een combinatie van fragmenten van natuurlijke spraak, maar toch is het resultaat behoorlijk leesbaar en lijkt het op het uitzenden van een opname uit een luidspreker. . Ter vergelijking: het Silero-project, dat een open spraaksynthese-engine biedt op basis van machinale leertechnologieën en een reeks modellen voor de Russische taal, is qua kwaliteit superieur aan RHVoice.

Er zijn 13 stemopties beschikbaar voor de Russische taal en 5 voor het Engels. De stemmen worden gevormd op basis van opnames van natuurlijke spraak. In de instellingen kun je de snelheid, toonhoogte en het volume wijzigen. De Sonic-bibliotheek kan worden gebruikt om het tempo te wijzigen. Het is mogelijk om automatisch talen te detecteren en te schakelen op basis van analyse van de invoertekst (voor woorden en citaten in een andere taal kan bijvoorbeeld een synthesemodel worden gebruikt dat eigen is aan die taal). Er worden stemprofielen ondersteund, die combinaties van stemmen voor verschillende talen definiëren.

Bron: opennet.ru

Voeg een reactie