Wydanie syntezatora mowy RHVoice 1.2.4, opracowanego dla języka rosyjskiego

Opublikowano wersję otwartego systemu syntezy mowy RHVoice 1.2.4, początkowo opracowanego w celu zapewnienia wysokiej jakości obsługi języka rosyjskiego, ale następnie zaadaptowanego dla innych języków, w tym angielskiego, portugalskiego, ukraińskiego, kirgiskiego, tatarskiego i gruzińskiego. Kod napisany jest w języku C++ i rozpowszechniany na licencji LGPL 2.1. Obsługuje pracę na systemach GNU/Linux, Windows i Android. Program jest kompatybilny ze standardowymi interfejsami TTS (text-to-speech) do konwersji tekstu na mowę: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) i Android Text-To-Speech API, ale może być również używany w NVDA czytnik ekranu.

W programie zastosowano metodę syntezy parametrycznej z modelami statystycznymi (Statystyczna Synteza Parametryczna w oparciu o HMM – Ukryty Model Markowa). Zaletą modelu statystycznego są niskie koszty ogólne i niewymagająca moc procesora. Wszystkie operacje wykonywane są lokalnie w systemie użytkownika. Obsługiwane są trzy poziomy jakości mowy (im niższa jakość, tym wyższa wydajność i krótszy czas reakcji).

Obsługuje ustawianie i zmianę głosów. Dla języka rosyjskiego dostępnych jest 9 opcji głosowych, dla języka angielskiego 5. Głosy tworzone są na podstawie nagrań mowy naturalnej. Dzięki zastosowaniu modelu statystycznego jakość wymowy nie dorównuje syntezatorom generującym mowę na podstawie kombinacji fragmentów mowy naturalnej, a mimo to wynik jest w miarę zrozumiały i przypomina transmisję nagrania z głośnika .

W ustawieniach możesz zmienić prędkość, wysokość i głośność. Do zmiany tempa można wykorzystać bibliotekę Sonic. Możliwe jest automatyczne wykrywanie i przełączanie języków na podstawie analizy tekstu wejściowego (na przykład dla słów i cudzysłowów w innym języku można zastosować model syntezy natywny dla tego języka). Obsługiwane są profile głosowe, definiujące kombinacje głosów dla różnych języków.

Źródło: opennet.ru

Dodaj komentarz