Wydanie syntezatora mowy RHVoice 1.6.0

Został wydany otwarty system syntezy mowy RHVoice 1.6.0, początkowo opracowany w celu zapewnienia wysokiej jakości obsługi języka rosyjskiego, ale następnie dostosowany do innych języków, w tym angielskiego, portugalskiego, ukraińskiego, kirgiskiego, tatarskiego i gruzińskiego. Kod napisany jest w języku C++ i rozpowszechniany na licencji LGPL 2.1. Obsługuje pracę na systemach GNU/Linux, Windows i Android. Program jest kompatybilny ze standardowymi interfejsami TTS (text-to-speech) do konwersji tekstu na mowę: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) i Android Text-To-Speech API, ale może być również używany w NVDA czytnik ekranu. Twórcą i głównym programistą RHVoice jest Olga Yakovleva, która rozwija projekt pomimo całkowitej niewidomości.

Nowa wersja dodaje 5 nowych opcji głosowych dla mowy rosyjskiej. Wprowadzono obsługę języka albańskiego. Zaktualizowano słownik języka ukraińskiego. Rozszerzono obsługę głosu znaków emoji. Wykonano prace mające na celu wyeliminowanie błędów w aplikacji na platformę Android, uproszczono import niestandardowych słowników oraz dodano obsługę platformy Android 11. Do rdzenia silnika dodano nowe ustawienia i funkcjonalności, w tym g2p. case, word_break i obsługa filtrów wyrównujących.

Przypomnijmy, że RHVoice wykorzystuje rozwinięcia projektu HTS (HMM/DNN-based Speech Synthesis System) oraz metodę syntezy parametrycznej z modelami statystycznymi (Statistical Parametric Synthesis Based on HMM - Hidden Markov Model). Zaletą modelu statystycznego są niskie koszty ogólne i niewymagająca moc procesora. Wszystkie operacje wykonywane są lokalnie w systemie użytkownika. Obsługiwane są trzy poziomy jakości mowy (im niższa jakość, tym wyższa wydajność i krótszy czas reakcji).

Wadą modelu statystycznego jest stosunkowo niska jakość wymowy, która nie osiąga poziomu syntezatorów generujących mowę na podstawie kombinacji fragmentów mowy naturalnej, a mimo to wynik jest dość czytelny i przypomina emisję nagrania z głośnika . Dla porównania projekt Silero, który zapewnia otwarty silnik syntezy mowy oparty na technologiach uczenia maszynowego i zestawie modeli dla języka rosyjskiego, przewyższa jakość RHVoice.

Dla języka rosyjskiego dostępnych jest 13 opcji głosowych, dla języka angielskiego 5. Głosy tworzone są na podstawie nagrań mowy naturalnej. W ustawieniach możesz zmienić prędkość, wysokość i głośność. Do zmiany tempa można wykorzystać bibliotekę Sonic. Możliwe jest automatyczne wykrywanie i przełączanie języków na podstawie analizy tekstu wejściowego (na przykład dla słów i cudzysłowów w innym języku można zastosować model syntezy natywny dla tego języka). Obsługiwane są profile głosowe, definiujące kombinacje głosów dla różnych języków.

Źródło: opennet.ru

Dodaj komentarz