Група компаній ЦРТ, що входить до екосистеми Ощадбанку, повідомила про розробку передової платформи синтезу мови, яка, як стверджується, забезпечує плавність та виразність прочитання будь-якого тексту.
Подане рішення - це третє покоління системи синтезу мови. Високоякісний аудіосигнал генерують складні нейромережеві моделі. Розробники заявляють, що результатом роботи цих алгоритмів є найреалістичніший синтез російськомовної мови.

До складу платформи входить модуль передбачення наголосів у словах, яких ще немає у базовому словнику. Крім того, передбачено автоматичне виправлення типових орфографічних помилок. Завдяки глибокому лінгвістичному аналізу тексту вимова відповідатиме нормам мови навіть у складних випадках.
Ще одна перевага платформи полягає в тому, що їй не потрібні дорогі сервери, оснащені прискорювачами GPU. Використовувати технологію можна двома способами через хмарний сервіс або вбудувавши у власне рішення.

Серед можливих областей застосування розробки називаються чат-боти та голосові помічники, сервіси інформування та оповіщення, голосові сервіси з моментальним синтезом будь-якого тексту в процесі дзвінка та ін.
"В автоматизованих сценаріях спілкування з клієнтами технологія дозволяє взаємодіяти в індивідуальному порядку з кожним абонентом, тому що немає фіксованих повідомлень, і будь-який текст може бути синтезований у процесі дзвінка", - кажуть розробники.
Випробувати технологію можна .
Джерело: 3dnews.ru
