Wydanie syntezatora mowy RHVoice 1.8.0

Został wydany otwarty system syntezy mowy RHVoice 1.8.0, początkowo opracowany w celu zapewnienia wysokiej jakości obsługi języka rosyjskiego, ale następnie dostosowany do innych języków, w tym angielskiego, portugalskiego, ukraińskiego, kirgiskiego, tatarskiego i gruzińskiego. Kod napisany jest w języku C++ i rozpowszechniany na licencji LGPL 2.1. Obsługuje pracę na systemach GNU/Linux, Windows i Android. Program jest kompatybilny ze standardowymi interfejsami TTS (text-to-speech) do konwersji tekstu na mowę: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) i Android Text-To-Speech API, ale może być również używany w NVDA czytnik ekranu. Twórcą i głównym programistą RHVoice jest Olga Yakovleva, która rozwija projekt pomimo całkowitej niewidomości.

Wersja 1.8 na platformę Android wprowadza nowy system zarządzania danymi głosowymi i językowymi, który umożliwia pobieranie aktualizacji danych głosowych bez konieczności aktualizacji aplikacji mobilnej. Aktualizacje danych dla dodanych głosów i języków są sprawdzane automatycznie. Ponadto nowa wersja wprowadza obsługę języka polskiego i dodaje nowy głos dla języka macedońskiego. Zapewniona jest kompatybilność z najnowszymi wersjami alfa i beta czytnika ekranu NVDA. Naprawiono problemy z budowaniem na platformie Linux, które występowały, gdy nie było programu Speech Dispatcher.

Przypomnijmy, że RHVoice wykorzystuje rozwinięcia projektu HTS (HMM/DNN-based Speech Synthesis System) oraz metodę syntezy parametrycznej z modelami statystycznymi (Statistical Parametric Synthesis Based on HMM - Hidden Markov Model). Zaletą modelu statystycznego są niskie koszty ogólne i niewymagająca moc procesora. Wszystkie operacje wykonywane są lokalnie w systemie użytkownika. Obsługiwane są trzy poziomy jakości mowy (im niższa jakość, tym wyższa wydajność i krótszy czas reakcji).

Wadą modelu statystycznego jest stosunkowo niska jakość wymowy, która nie osiąga poziomu syntezatorów generujących mowę na podstawie kombinacji fragmentów mowy naturalnej, a mimo to wynik jest dość czytelny i przypomina emisję nagrania z głośnika . Dla porównania projekt Silero, który zapewnia otwarty silnik syntezy mowy oparty na technologiach uczenia maszynowego i zestawie modeli dla języka rosyjskiego, przewyższa jakość RHVoice.

Dla języka rosyjskiego dostępnych jest 14 opcji głosowych, dla języka angielskiego 6. Głosy tworzone są na podstawie nagrań mowy naturalnej. W ustawieniach możesz zmienić prędkość, wysokość i głośność. Do zmiany tempa można wykorzystać bibliotekę Sonic. Możliwe jest automatyczne wykrywanie i przełączanie języków na podstawie analizy tekstu wejściowego (na przykład dla słów i cudzysłowów w innym języku można zastosować model syntezy natywny dla tego języka). Obsługiwane są profile głosowe, definiujące kombinacje głosów dla różnych języków.

Źródło: opennet.ru

Dodaj komentarz