Абнаўленне галасавых дадзеных Mozilla Common Voice 8.0

Кампанія Mozilla прадставіла абнаўленне набораў галасавых дадзеных Common Voice, якія ўключаюць прыклады вымаўлення каля 200 тысяч людзей. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення. У параўнанні з мінулым абнаўленнем аб'ём маўленчага матэрыялу ў калекцыі павялічыўся на 30% - з 13.9 да 18.2 тысяч гадзін прамовы. Колькасць падтрымліваемых моў узрасла з 67 да 87.

Набор для рускай мовы ахоплівае 2452 удзельнікі і 193 гадзіны маўленчага матэрыялу (было 2136 удзельнікаў і 173 гадзін), для беларускай мовы - 6160 удзельнікаў і 987 гадзін (было - 3831 удзельнік і 356 гадзін), для ўкраінскай мовы - 684 удзельнікі і 76 было 615 удзельнікаў і 66 гадзін). У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 79 тысяч чалавек, якія дыктавалі 2886 гадзін пацверджанай прамовы (было 75 тысяч удзельнікаў і 2637 гадзін).

Нагадаем, што праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах. Па меркаванні аўтара бібліятэкі распазнання злітнай гаворкі Vosk недахопамі набору Common Voice з'яўляецца аднабокасць галасавога матэрыялу (перавага людзей мужчынскай падлогі 20-30 гадоў, і недахоп матэрыялу з голасам жанчын, дзяцей і пажылых людзей), адсутнасць варыятыўнасці слоўніка (паўтарэнне адных і тых жа фраз) і распаўсюджванне запісаў ва ўносіць скажэнні фармаце MP3.

Дадаткова можна адзначыць выпуск інструментара NVIDIA NeMo 1.6, які прадстаўляе метады машыннага навучання для стварэння сістэм распазнання прамовы, сінтэзу гаворкі і апрацоўкі інфармацыі на натуральнай мове. У склад NeMo ўваходзяць гатовыя натрэніраваныя мадэлі для сістэм машыннага навучання на базе фрэймворка PyTorch, падрыхтаваныя кампаніяй NVIDIA з выкарыстаннем маўленчых дадзеных Common Voice і якія ахопліваюць розныя мовы, акцэнты і формы гаворкі. Мадэлі могуць аказацца карыснымі для даследчыкаў, якія займаюцца стварэннем галасавых дыялогавых сістэм, платформаў для транскрыпцыі і аўтаматызаваных кол-цэнтраў. Напрыклад, NVIDIA NeMo прымяняецца ў аўтаматызаваных галасавых сэрвісах МТС і Ашчадбанка. Код NeMo напісаны на мове Python з выкарыстаннем PyTorch і распаўсюджваецца пад ліцэнзіяй Apache 2.0.

Крыніца: opennet.ru

Дадаць каментар