Новий випуск системи синтезу мовлення Silero

Доступний новий публічний випуск нейромережевої системи синтезу промови Silero Text-to-Speech. Проект насамперед націлений створення сучасної високоякісної системи синтезу промови, не поступається комерційним рішенням від корпорацій і доступної всім бажаючих без використання дорогого серверного устаткування.

Моделі розповсюджуються під ліцензією GNU AGPL, але компанія, що розвиває проект, не розкриває механізм тренування моделей. Для запуску можна використовувати PyTorch та фреймворки з підтримкою формату ONNX. Синтез мови в Silero заснований на використанні глибокого модифікованих сучасних нейромережевих алгоритмів та методів цифрової обробки сигналів.

Зазначається, що основною проблемою сучасних нейромережевих рішень для синтезу мовлення є те, що найчастіше вони доступні лише в рамках платних хмарних рішень, а публічні продукти мають високі вимоги до обладнання, нижчу якість або не є закінченими та готовими для використання продуктами. Наприклад, для безпроблемного запуску однієї з нових популярних архітектур end-to-end синтезу, VITS, в режимі синтезу (тобто не для тренування моделей) потрібні відеокарти з більш ніж 16 гігабайт VRAM.

Всупереч тренду, що склався, рішення Silero успішно запускаються навіть на 1 потоці x86 процесора Intel з інструкціями AVX2. На 4 потоках процесора синтез дозволяє синтезувати від 30 до 60 секунд на секунду в режимі синтезу 8 kHz, в режимі 24 kHz - 15-20 сек., А в режимі 48 kHz - близько 10 сек.

Основні особливості нового випуску Silero:

  • Розмір моделі знижений у 2 рази до 50 мегабайт;
  • Моделі можуть робити паузи;
  • Доступно 4 високоякісні голоси російською мовою (і нескінченна кількість випадкових). приклади вимови;
  • Моделі стали у 10 разів швидше і, наприклад, у режимі 24 kHz дозволяють синтезувати до 20 секунд аудіо за секунду на 4 потоках процесора;
  • Усі варіанти голосів однієї мови упаковані в одну модель;
  • Моделі можуть приймати цілі абзаци тексту на вхід, підтримуються теги SSML;
  • Синтез працює відразу в трьох частотах дискретизації на вибір - 8, 24 та 48 кілогерц;
  • Вирішено «дитячі проблеми»: нестабільність та пропуск слів;
  • Додані прапори для контролю автоматичного проставлення наголосів та проставлення букви «е».

Зараз для найновішої версії синтезу публічно доступні 4 голоси російською мовою, але в найближчому майбутньому буде опубліковано наступну версію з наступними змінами:

  • Швидкість синтезу зросте ще 2-4 разу;
  • Буде оновлено моделі синтезу для мов СНД: Калмицької, Татарської, Узбецької та Української;
  • Будуть додані моделі для європейських мов;
  • Будуть додані моделі для індійських мов;
  • Буде додано моделі для англійської мови.

Деякі із системних пробоїв, властивих синтезу Silero:

  • На відміну від більш традиційних рішень для синтезу, таких як RHVoice, синтез Silero не має інтеграції з SAPI, простих до встановлення клієнтів та інтеграцій для Windows і Android;
  • Швидкість, хоч і є безпрецедентно високою для такого рішення, може бути недостатньою для синтезу на льоту на слабких процесорах у високій якості;
  • Рішення для автоматичного розміщення наголосів не обробляє омографи (слова на кшталт замків і замків) і все ще робить помилки, але дана недоробка буде виправлена ​​в майбутніх релізах;
  • Поточна версія синтезу не працює на процесорах без інструкцій AVX2 (або необхідно спеціально змінювати налаштування PyTorch), оскільки один із модулів усередині моделі квантизований;
  • Поточна версія синтезу по суті має єдину залежність PyTorch, вся начинка «зашита» всередину моделі та JIT-пакетів. Вихідники моделей не публікуються, так само як і код для запуску моделей з-під клієнтів PyTorch для інших мов;
  • Libtorch, доступний для мобільних платформ, набагато громіздкіший, ніж ONNX runtime, але ONNX-версія моделі поки не надається.

Джерело: opennet.ru

Додати коментар або відгук