RHVoice 1.8.0 release van spraaksynthesizer

Het open spraaksynthesesysteem RHVoice 1.8.0 werd uitgebracht, aanvankelijk ontwikkeld om hoogwaardige ondersteuning te bieden voor de Russische taal, maar vervolgens aangepast voor andere talen, waaronder Engels, Portugees, Oekraïens, Kirgizisch, Tataars en Georgisch. De code is geschreven in C++ en wordt gedistribueerd onder de LGPL 2.1-licentie. Ondersteunt werk op GNU/Linux, Windows en Android. Het programma is compatibel met standaard TTS (text-to-speech) interfaces voor het omzetten van tekst naar spraak: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) en Android Text-To-Speech API, maar kan ook gebruikt worden in de NVDA schermlezer. De bedenker en hoofdontwikkelaar van RHVoice is Olga Yakovleva, die het project ontwikkelt ondanks dat ze volledig blind is.

В версии 1.8 для платформы Android предложена новая система управления голосовыми и языковыми данными, позволяющая загружать обновления голосовых данных без обновления мобильного приложения. Проверка появления обновлений данных для добавленных голосов и языков производится автоматически. Кроме того, в новом выпуске реализована поддержка польского языка и добавлен новый голос для македонского языка. Обеспечена совместимость со свежими альфа- и бета-выпусками экранного ридера NVDA. Устранены проблемы со сборкой на платформе Linux, возникавшие при отсутствии Speech Dispatcher.

Laten we niet vergeten dat RHVoice gebruik maakt van de ontwikkelingen van het HTS-project (HMM/DNN-gebaseerd spraaksynthesesysteem) en de parametrische synthesemethode met statistische modellen (Statistische Parametrische Synthese gebaseerd op HMM - Hidden Markov Model). Het voordeel van het statistische model zijn de lage overheadkosten en het weinig veeleisende CPU-vermogen. Alle bewerkingen worden lokaal op het systeem van de gebruiker uitgevoerd. Er worden drie niveaus van spraakkwaliteit ondersteund (hoe lager de kwaliteit, hoe hoger de prestaties en hoe korter de reactietijd).

Het nadeel van het statistische model is de relatief lage kwaliteit van de uitspraak, die niet het niveau bereikt van synthesizers die spraak genereren op basis van een combinatie van fragmenten van natuurlijke spraak, maar toch is het resultaat behoorlijk leesbaar en lijkt het op het uitzenden van een opname uit een luidspreker. . Ter vergelijking: het Silero-project, dat een open spraaksynthese-engine biedt op basis van machinale leertechnologieën en een reeks modellen voor de Russische taal, is qua kwaliteit superieur aan RHVoice.

Er zijn 14 stemopties beschikbaar voor de Russische taal en 6 voor het Engels. De stemmen worden gevormd op basis van opnames van natuurlijke spraak. In de instellingen kun je de snelheid, toonhoogte en het volume wijzigen. De Sonic-bibliotheek kan worden gebruikt om het tempo te wijzigen. Het is mogelijk om automatisch talen te detecteren en te schakelen op basis van analyse van de invoertekst (voor woorden en citaten in een andere taal kan bijvoorbeeld een synthesemodel worden gebruikt dat eigen is aan die taal). Er worden stemprofielen ondersteund, die combinaties van stemmen voor verschillende talen definiëren.

Bron: opennet.ru

Voeg een reactie