Випуск синтезатора мови RHVoice 1.8.0

Відбувся випуск відкритої системи синтезу промови RHVoice 1.8.0, що спочатку розвивалася для забезпечення якісної підтримки російської мови, але потім адаптованої і для інших мов, включаючи англійську, португальську, українську, киргизьку, татарську та грузинську. Код написаний С++ і поширюється під ліцензією LGPL 2.1. Підтримується робота в GNU/Linux, Windows та Android. Програма сумісна з типовими TTS-інтерфейсами (text-to-speech) для перетворення тексту на мову: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) та Android Text-To-Speech API, але також може використовуватися в екранному рідері NVDA. Творцем та основним розробником RHVoice є Ольга Яковлєва, яка розвиває проект незважаючи на повну сліпоту.

У версії 1.8 для платформи Android запропоновано нову систему керування голосовими та мовними даними, що дозволяє завантажувати оновлення голосових даних без оновлення мобільної програми. Перевірка появи оновлень даних для доданих голосів та мов здійснюється автоматично. Крім того, у новому випуску реалізовано підтримку польської мови та додано новий голос для македонської мови. Забезпечена сумісність зі свіжими альфа- та бета-випусками екранного ридера NVDA. Усунено проблеми зі складанням на платформі Linux, що виникали за відсутності Speech Dispatcher.

Нагадаємо, що в RHVoice застосовуються напрацювання проекту HTS (HMM/DNN-based Speech Synthesis System) та параметричний метод синтезу зі статистичними моделями (Statistical Parametric Synthesis на базі HMM – Hidden Markov Model). Плюсом статистичної моделі є низькі накладні витрати та невибагливість до потужності CPU. Усі операції виконуються локально в системі користувача. Підтримується три рівні якості промови (що нижча якість — то вища продуктивність і менше час реакції).

Мінусом статистичної моделі є відносно низька якість вимови, яка не досягає рівня синтезаторів, що генерують мову на основі комбінації фрагментів природного мовлення, проте результат цілком розбірливий і нагадує трансляцію запису з гучномовця. Для порівняння, проект Silero, що надає відкритий двигун для синтезу мови на основі технологій машинного навчання та набір моделей для російської мови, за якістю перевершує RHVoice.

Для російської доступно 14 варіантів голосів, для англійської — 6. Голоси формуються з урахуванням записів природної промови. У налаштуваннях можна змінювати швидкість, висоту та гучність. Для зміни темпу може застосовуватись бібліотека Sonic. Можливе автоматичне визначення та перемикання мови на основі аналізу вхідного тексту (наприклад, для слів та цитат іншою мовою може використовуватися рідна для цієї мови модель синтезу). Підтримуються голосові профілі, які визначають поєднання голосів для різних мов.

Джерело: opennet.ru

Додати коментар або відгук