Кампанія Mozilla прадставіла абнаўленне набораў галасавых дадзеных Common Voice, якія ўключаюць прыклады вымаўлення каля 200 тысяч людзей. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення. У параўнанні з мінулым абнаўленнем аб'ём маўленчага матэрыялу ў калекцыі павялічыўся на 30% - з 13.9 да 18.2 тысяч гадзін прамовы. Колькасць падтрымліваемых моў узрасла з 67 да 87.
Набор для рускай мовы ахоплівае 2452 удзельнікі і 193 гадзіны маўленчага матэрыялу (было 2136 удзельнікаў і 173 гадзін), для беларускай мовы - 6160 удзельнікаў і 987 гадзін (было - 3831 удзельнік і 356 гадзін), для ўкраінскай мовы - 684 удзельнікі і 76 было 615 удзельнікаў і 66 гадзін). У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 79 тысяч чалавек, якія дыктавалі 2886 гадзін пацверджанай прамовы (было 75 тысяч удзельнікаў і 2637 гадзін).
Нагадаем, што праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах. Па меркаванні аўтара бібліятэкі распазнання злітнай гаворкі Vosk недахопамі набору Common Voice з'яўляецца аднабокасць галасавога матэрыялу (перавага людзей мужчынскай падлогі 20-30 гадоў, і недахоп матэрыялу з голасам жанчын, дзяцей і пажылых людзей), адсутнасць варыятыўнасці слоўніка (паўтарэнне адных і тых жа фраз) і распаўсюджванне запісаў ва ўносіць скажэнні фармаце MP3.
Дадаткова можна адзначыць выпуск інструментара NVIDIA NeMo 1.6, які прадстаўляе метады машыннага навучання для стварэння сістэм распазнання прамовы, сінтэзу гаворкі і апрацоўкі інфармацыі на натуральнай мове. У склад NeMo ўваходзяць гатовыя натрэніраваныя мадэлі для сістэм машыннага навучання на базе фрэймворка PyTorch, падрыхтаваныя кампаніяй NVIDIA з выкарыстаннем маўленчых дадзеных Common Voice і якія ахопліваюць розныя мовы, акцэнты і формы гаворкі. Мадэлі могуць аказацца карыснымі для даследчыкаў, якія займаюцца стварэннем галасавых дыялогавых сістэм, платформаў для транскрыпцыі і аўтаматызаваных кол-цэнтраў. Напрыклад, NVIDIA NeMo прымяняецца ў аўтаматызаваных галасавых сэрвісах МТС і Ашчадбанка. Код NeMo напісаны на мове Python з выкарыстаннем PyTorch і распаўсюджваецца пад ліцэнзіяй Apache 2.0.
Крыніца: opennet.ru