NVIDIA інвестує 1.5 млн доларів у проект Mozilla Common Voice

Компанія NVIDIA інвестує 1.5 млн. доларів у проект Mozilla Common Voice. Інтерес до систем розпізнавання мови пов'язаний із прогнозом, що у наступні десять років голосові технології стануть одним із основних способів взаємодії людей з різними пристроями, від комп'ютерів та телефонів, до цифрових асистентів та кіосків для продажу товарів.

Якість роботи голосових систем залежить від обсягу та різноманітності голосових даних, доступних для тренування моделей машинного навчання. Сьогоднішні голосові технології в основному зосереджені на розпізнанні англійської мови та не охоплюють величезну кількість мов, акцентів та моделей мови. Інвестиції допоможуть прискорити нарощування обсягу загальнодоступних голосових даних, залучити до роботи більше спільнот та волонтерів, а також розширити кількість співробітників, які займаються проектом у основний робочий час.

Нагадаємо, що проект Common Voice націлений на організацію спільної роботи з накопичення бази голосових шаблонів, що враховує всю різноманітність голосів та манер мови. Користувачам пропонується озвучити фрази, що виводяться на екран, або оцінити якість даних, доданих іншими користувачами. Накопичену базу даних із записами різної вимови типових фраз людської мови без обмежень можна використовувати в системах машинного навчання та в дослідницьких проектах.

В даний час набір Common Voice включає приклади вимови понад 164 тисячі людей. Накопичено близько 9 тисяч годин голосових даних 60 різними мовами. Набір для російської мови охоплює 1412 учасників та 111 годин мовного матеріалу, а для української мови – 459 учасників та 30 годин. Для порівняння у підготовці матеріалів англійською мовою взяли участь понад 66 тисяч осіб, які надиктували 1686 годин підтвердженого мовлення. Запропоновані набори можна використовувати в системах машинного навчання для побудови моделей розпізнавання та синтезу мовлення. Дані опубліковані як суспільні надбання (CC0).

На думку автора бібліотеки розпізнавання злитого мовлення Vosk недоліками набору Common Voice є однобокість голосового матеріалу (переважання людей чоловічої статі 20-30 років, і недолік матеріалу з голосом жінок, дітей та людей похилого віку), відсутність варіативності словника (повторення одних і тих же фраз) і поширення записів у форматі MP3, що вносить спотворення.

Джерело: opennet.ru

Додати коментар або відгук