Оновлення голосових даних Mozilla Common Voice 12.0

Компанія Mozilla оновила набори голосових даних Common Voice, що включають в себе приклади вимови понад 200 тисяч осіб. Дані опубліковані як суспільні надбання (CC0). Запропоновані набори можна використовувати в системах машинного навчання для побудови моделей розпізнавання та синтезу мовлення.

Порівняно з минулим оновленням обсяг мовного матеріалу в колекції збільшився з 23.8 до 25.8 тисячі годин мови. У підготовці матеріалів англійською мовою взяли участь понад 88 тисяч осіб, які надиктували 3161 годину промови (було 84 тисячі учасників та 3098 годин). Набір для білоруської мови охоплює 7903 учасників та 1419 годин мовного матеріалу (було – 6965 учасників та 1217 годин), російської мови – 2815 учасників та 229 годин (було 2731 учасник та 215 годин), узбецької – 2092 учасника та 262 та 2025 годин), української мови — 258 учасників та 780 годин (було 87 учасників та 759 годин).

Проект Common Voice націлений на організацію спільної роботи з накопичення бази голосових шаблонів, що враховує всю різноманітність голосів та манер мови. Користувачам пропонується озвучити фрази, що виводяться на екран, або оцінити якість даних, доданих іншими користувачами. Накопичену базу даних із записами різної вимови типових фраз людської мови без обмежень можна використовувати в системах машинного навчання та в дослідницьких проектах.

Джерело: opennet.ru

Додати коментар або відгук