Оновлення голосових даних Mozilla Common Voice 8.0

Компанія Mozilla представила оновлення наборів голосових даних Common Voice, що включають в себе приклади вимови близько 200 тисяч людей. Дані опубліковані як суспільні надбання (CC0). Запропоновані набори можна використовувати в системах машинного навчання для побудови моделей розпізнавання та синтезу мовлення. Порівняно з минулим оновленням обсяг мовного матеріалу в колекції збільшився на 30% — з 13.9 до 18.2 тисячі годин мови. Кількість мов, що підтримуються, зросла з 67 до 87.

Набір для російської мови охоплює 2452 учасника та 193 години мовного матеріалу (було 2136 учасників та 173 годин), для білоруської мови – 6160 учасників та 987 годин (було – 3831 учасник та 356 годин), для української мови – 684 учасники та 76 було 615 учасників та 66 годин). У підготовці матеріалів англійською мовою взяли участь понад 79 тисяч осіб, які надиктували 2886 годин підтвердженої мови (було 75 тисяч учасників та 2637 годин).

Нагадаємо, що проект Common Voice націлений на організацію спільної роботи з накопичення бази голосових шаблонів, що враховує всю різноманітність голосів та манер мови. Користувачам пропонується озвучити фрази, що виводяться на екран, або оцінити якість даних, доданих іншими користувачами. Накопичену базу даних із записами різної вимови типових фраз людської мови без обмежень можна використовувати в системах машинного навчання та в дослідницьких проектах. На думку автора бібліотеки розпізнавання злитого мовлення Vosk недоліками набору Common Voice є однобокість голосового матеріалу (переважання людей чоловічої статі 20-30 років, і недолік матеріалу з голосом жінок, дітей та людей похилого віку), відсутність варіативності словника (повторення одних і тих же фраз) і поширення записів у форматі MP3, що вносить спотворення.

Додатково можна відзначити випуск інструментарію NVIDIA NeMo 1.6, що надає методи машинного навчання для створення систем розпізнавання мови, синтезу мови та обробки інформації природною мовою. До складу NeMo входять готові натреновані моделі для систем машинного навчання на базі фреймворку PyTorch, підготовлені компанією NVIDIA з використанням мовних даних Common Voice і що охоплюють різні мови, акценти та форми мовлення. Моделі можуть виявитися корисними для дослідників, які займаються створенням голосових діалогових систем, платформ для транскрипції та автоматизованих кол-центрів. Наприклад, NVIDIA NeMo застосовується в автоматизованих голосових сервісах МТС та Ощадбанку. Код NeMo написаний мовою Python за допомогою PyTorch і поширюється під ліцензією Apache 2.0.

Джерело: opennet.ru

Додати коментар або відгук