Випуск синтезатора мови RHVoice 1.6.0

Відбувся випуск відкритої системи синтезу промови RHVoice 1.6.0, що спочатку розвивалася для забезпечення якісної підтримки російської мови, але потім адаптованої і для інших мов, включаючи англійську, португальську, українську, киргизьку, татарську та грузинську. Код написаний С++ і поширюється під ліцензією LGPL 2.1. Підтримується робота в GNU/Linux, Windows та Android. Програма сумісна з типовими TTS-інтерфейсами (text-to-speech) для перетворення тексту на мову: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) та Android Text-To-Speech API, але також може використовуватися в екранному рідері NVDA. Творцем та основним розробником RHVoice є Ольга Яковлєва, яка розвиває проект незважаючи на повну сліпоту.

У новій версії додано 5 нових варіантів голосів для російської мови. Реалізовано підтримку албанської мови. Оновлено словник для української мови. Розширено підтримку озвучування символів emoji. Проведено роботу з усунення помилок у додатку для платформи Android, спрощено імпорт словників користувача, а також додано підтримку платформи Android 11. У ядро ​​движка додано нові налаштування та функціональні можливості, включаючи g2p.case, word_break і підтримку фільтрів еквалізації.

Нагадаємо, що в RHVoice застосовуються напрацювання проекту HTS (HMM/DNN-based Speech Synthesis System) та параметричний метод синтезу зі статистичними моделями (Statistical Parametric Synthesis на базі HMM – Hidden Markov Model). Плюсом статистичної моделі є низькі накладні витрати та невибагливість до потужності CPU. Усі операції виконуються локально в системі користувача. Підтримується три рівні якості промови (що нижча якість — то вища продуктивність і менше час реакції).

Мінусом статистичної моделі є відносно низька якість вимови, яка не досягає рівня синтезаторів, що генерують мову на основі комбінації фрагментів природного мовлення, проте результат цілком розбірливий і нагадує трансляцію запису з гучномовця. Для порівняння, проект Silero, що надає відкритий двигун для синтезу мови на основі технологій машинного навчання та набір моделей для російської мови, за якістю перевершує RHVoice.

Для російської доступно 13 варіантів голосів, для англійської — 5. Голоси формуються з урахуванням записів природної промови. У налаштуваннях можна змінювати швидкість, висоту та гучність. Для зміни темпу може застосовуватись бібліотека Sonic. Можливе автоматичне визначення та перемикання мови на основі аналізу вхідного тексту (наприклад, для слів та цитат іншою мовою може використовуватися рідна для цієї мови модель синтезу). Підтримуються голосові профілі, які визначають поєднання голосів для різних мов.

Джерело: opennet.ru

Додати коментар або відгук