Оновлення голосових даних Mozilla Common Voice 9.0

Компанія Mozilla представила оновлення наборів голосових даних Common Voice, що включають в себе приклади вимови близько 200 тисяч осіб. Дані опубліковані як суспільні надбання (CC0). Запропоновані набори можна використовувати в системах машинного навчання для побудови моделей розпізнавання та синтезу мовлення.

Порівняно з минулим оновленням обсяг мовного матеріалу в колекції збільшився на 10% — з 18.2 до 20.2 тисячі годин мови. Кількість підтримуваних мов зросла з 87 до 93. Для 27 мов накопичено понад 100 годин мовних даних, а 9 — понад 500 годин мовних даних. Для 9 мов також вдалося досягти частки жіночої мови, що становить щонайменше 45%.

У підготовці матеріалів англійською мовою взяли участь понад 81 тисяча осіб, що надиктували 2953 години промови (було 79 тисяч учасників та 2886 годин). Набір для білоруської мови охоплює 6326 учасників та 1054 години мовного матеріалу (було – 6160 учасників та 987 годин), російської мови – 2585 учасників та 201 годину (було 2452 учасника та 193 години), узбецької – 1503 учасники та 231 учасників та 1355 годин), української мови — 227 учасників та 696 годин (було 79 учасники та 684 годин).

Проект Common Voice націлений на організацію спільної роботи з накопичення бази голосових шаблонів, що враховує всю різноманітність голосів та манер мови. Користувачам пропонується озвучити фрази, що виводяться на екран, або оцінити якість даних, доданих іншими користувачами. Накопичену базу даних із записами різної вимови типових фраз людської мови без обмежень можна використовувати в системах машинного навчання та в дослідницьких проектах.

Джерело: opennet.ru

Додати коментар або відгук