Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.
По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 23.8 до 25.8 тысяч часов речи. В подготовке материалов на английском языке приняли участие более 88 тысяч человек, надиктовавших 3161 час речи (было 84 тысячи участников и 3098 часов). Набор для белорусского языка охватывает 7903 участников и 1419 часов речевого материала (было — 6965 участников и 1217 часов), русского языка — 2815 участников и 229 часов (было 2731 участник и 215 часов), узбекского — 2092 участника и 262 часа (было 2025 участников и 258 часов), украинского языка — 780 участников и 87 часов (было 759 участников и 87 часов).
Tá sé mar aidhm ag an tionscadal Common Voice obair chomhpháirteach a eagrú chun bunachar sonraí de phatrúin gutha a bhailiú a chuireann éagsúlacht guthanna agus stíleanna cainte san áireamh. Tugtar cuireadh d’úsáideoirí frásaí gutha ar taispeáint ar an scáileán nó cáilíocht na sonraí a chuireann úsáideoirí eile leis a mheas. Is féidir an bunachar sonraí carntha ina bhfuil taifid ar fhuaimniú éagsúla frásaí tipiciúla cainte daonna a úsáid gan srianta i gcórais mheaisínfhoghlama agus i dtionscadail taighde.
Foinse: oscailtenet.ru