Оновлення голосових даних Mozilla Common Voice 7.0

Компанії NVIDIA і Mozilla представили оновлення наборів голосових даних, зібраних в результаті ініціативи Common Voice і які включають приклади вимови 182 тисяч людей, що на 25% більше ніж 6 місяців тому. Дані опубліковані як суспільні надбання (CC0). Запропоновані набори можна використовувати в системах машинного навчання для побудови моделей розпізнавання та синтезу мовлення.

Порівняно з минулим оновленням обсяг обсягу мовного матеріалу в колекції збільшився з 9 до 13.9 тисяч годин мови. Кількість підтримуваних мов зросла з 60 до 76, у тому числі вперше додано підтримку Білоруської, Казахської, Узбецької, Болгарської, Вірменської, Азербайджанської та Башкирської мов. Набір для російської мови охоплює 2136 учасників та 173 години мовного матеріалу (було 1412 учасників та 111 годин), а для української мови – 615 учасників та 66 годин (було 459 учасників та 30 годин).

У підготовці матеріалів англійською мовою взяли участь понад 75 тисяч осіб, які надиктували 2637 годин підтвердженої мови (було 66 тисяч учасників та 1686 годин). Цікаво, що на другому місці за розміром накопичених даних мова руанда, для якої зібрано 2260 годин. Потім слідують німецька (1040), каталонська (920) та есперанто (840). З найбільш динамічно нарощують розмір голосових даних мов називаються тайська мова (зростання бази в 20 разів, з 12 до 250 годин), луганда (з 8 до 80 годин), есперанто (зі 100 до 840 годин) та мова Таміла (з 24 до 220) годин).

В рамках своєї участі в проекті Common Voice компанія NVIDIA підготувала на базі зібраних даних готові натреновані моделі для систем машинного навчання (підтримується PyTorch). Моделі розповсюджуються у складі безкоштовного та відкритого інструментарію NVIDIA NeMo, який, наприклад, вже використовується в автоматизованих голосових сервісах МТС та Ощадбанку. Моделі орієнтовані на використання в системах розпізнавання мовлення, синтезу мови та обробки інформації природною мовою, і можуть виявитися корисними для дослідників, які займаються створенням голосових діалогових систем, платформ для транскрипції та автоматизованих кол-центрів. На відміну від доступних раніше проектів, опубліковані моделі не обмежуються розпізнаванням англійської мови та охоплюють різні мови, акценти та форми мови.

Нагадаємо, що проект Common Voice націлений на організацію спільної роботи з накопичення бази голосових шаблонів, що враховує всю різноманітність голосів та манер мови. Користувачам пропонується озвучити фрази, що виводяться на екран, або оцінити якість даних, доданих іншими користувачами. Накопичену базу даних із записами різної вимови типових фраз людської мови без обмежень можна використовувати в системах машинного навчання та в дослідницьких проектах.

На думку автора бібліотеки розпізнавання злитого мовлення Vosk недоліками набору Common Voice є однобокість голосового матеріалу (переважання людей чоловічої статі 20-30 років, і недолік матеріалу з голосом жінок, дітей та людей похилого віку), відсутність варіативності словника (повторення одних і тих же фраз) і поширення записів у форматі MP3, що вносить спотворення.

Джерело: opennet.ru

Додати коментар або відгук