Mozilla объявила о выпуске 18-го набора данных Common Voice, который теперь доступен для скачивания. Этот набор данных является частью стратегии Mozilla по обеспечению более широкого доступа к голосовым технологиям. Он представляет собой бесплатный набор данных многоязычных голосовых фрагментов и связанных с ними текстовых данных, который распространяется под лицензией CC0 (общественное достояние). Создание набора данных — это совместная работа сообщества, включая участников, предоставляющих голос и текст, активистов в области языков, технологов, ученых и других членов сообщества Common Voice.
Общий объем набора данных Common Voice достиг 31 841 часа, из которых 20 789 часов речевых данных проверено сообществом. Это на 700 часов больше речевых данных по сравнению с последним выпуском набора данных и на 381 час больше новых проверенных данных. 18-й набор данных состоит из фрагментов на 129 языках, включая 5 новых языков, добавленных в этом выпуске.
В новом наборе данных представлены пять новых языков: Коса (Xhosa, ЮАР), Календжин (Kalenjin, Кения), Дабида (Kidaw’ida, Кения), Долуо (Dholuo, Кения и Танзания) и Тсва́на (Setswana, Ботсвана, Зимбабве, Намибия, ЮАР). На этих языках говорят сотни миллионов людей по всему миру, которые теперь могут получить более качественную поддержку в области голосовых технологий.
Если вы заинтересованы в Common Voice, есть множество способов присоединиться к сообществу участников. Вы можете поделиться своим голосом или написать и внести оригинальные предложения на своем языке, чтобы помочь создать следующий набор данных. Если вашего языка еще нет в Common Voice, вы можете запросить его добавление с помощью специальной формы. Также приветствуются технические вклады в открытый проект на Github.
Mozilla всегда рада получать отзывы о новых выпусках. Вы можете связаться с ними на форумах Common Voice, пообщаться с ними в Matrix или написать команде напрямую по адресу [email protected]. Они особенно заинтересованы в изучении того, что пользователи наборов данных создают или исследуют с использованием набора данных. Лучшее понимание потребностей пользователей наборов данных может помочь им определить направление, которое лучше отвечает потребностям пользователей.
Источник: linux.org.ru