神經網路將俄語語音合成的品質提升到了一個新的水平

Группа компаний ЦРТ, входящая в экосистему Сбербанка, сообщила о разработке передовой платформы синтеза речи, которая, как утверждается, обеспечивает плавность и выразительность прочтения любого текста.

Представленное решение — это третье поколение системы синтеза речи. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. Разработчики заявляют, что результатом работы этих алгоритмов является самый реалистичный синтез русскоязычной речи.

神經網路將俄語語音合成的品質提升到了一個新的水平

В состав платформы входит модуль предсказания ударений в словах, которых ещё нет в базовом словаре. Кроме того, предусмотрено автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.

Ещё одно достоинство платформы заключается в том, что ей не требуются дорогостоящие серверы, оснащённые GPU-ускорителями. Использовать технологию можно двумя способами — через облачный сервис или встроив в собственное решение.


神經網路將俄語語音合成的品質提升到了一個新的水平

Среди возможных областей применения разработки называются чат-боты и голосовые помощники, сервисы информирования и оповещения, голосовые сервисы с моментальным синтезом любого текста в процессе звонка и пр.

«В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений, и любой текст может быть синтезирован в процессе звонка», — говорят разработчики.

Опробовать технологию можно 這裡



來源: 3dnews.ru

添加評論