Абнаўленне галасавых дадзеных Mozilla Common Voice 7.0

Кампаніі NVIDIA і Mozilla прадставілі абнаўленне набораў галасавых дадзеных, сабраных у выніку ініцыятывы Common Voice і якія ўключаюць прыклады вымаўлення 182 людзей, што на 25% больш, чым 6 месяцаў таму. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення.

У параўнанні з мінулым абнаўленнем памер аб'ём маўленчага матэрыялу ў калекцыі павялічыўся з 9 да 13.9/60 тысяч гадзін прамовы. Колькасць падтрымліваемых моў узрасла з 76 да 2136, у тым ліку ўпершыню дададзена падтрымка Беларускай, Казахскай, Узбекскай, Балгарскай, Армянскай, Азербайджанскай і Башкірскай моў. Набор для рускай мовы ахоплівае 173 удзельнікаў і 1412 гадзіны маўленчага матэрыялу (было 111 удзельнікаў і 615 гадзін), а для ўкраінскай мовы - 66 удзельнікаў і 459 гадзін (было 30 удзельнікаў і XNUMX гадзін).

У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 75 тысяч чалавек, якія дыктавалі 2637 гадзін пацверджанай прамовы (было 66 тысяч удзельнікаў і 1686 гадзін). Цікава, што на другім месцы па памеры назапашаных дадзеных мова руанда, для якога сабрана 2260 гадзін. Затым ідуць нямецкі (1040), каталонскі (920) і эсперанта (840). З найбольш дынамічна нарошчваючых памер галасавых дадзеных моў называюцца тайская мова (рост базы ў 20 разоў, з 12 да 250 гадзін), луганда (з 8 да 80 гадзін), эсперанта (са 100 да 840 гадзін) і тамільская мова (з 24 да 220) гадзін).

У рамках свайго ўдзелу ў праекце Common Voice кампанія NVIDIA падрыхтавала на базе сабраных дадзеных гатовыя натрэніраваныя мадэлі для сістэм машыннага навучання (падтрымліваецца PyTorch). Мадэлі распаўсюджваюцца ў складзе бясплатнага і адчыненага інструментара NVIDIA NeMo, які, напрыклад, ужо выкарыстоўваецца ў аўтаматызаваных галасавых сэрвісах МТС і Ашчадбанка. Мадэлі арыентаваны на выкарыстанне ў сістэмах распазнання прамовы, сінтэзу гаворкі і апрацоўкі інфармацыі на натуральнай мове, і могуць апынуцца карыснымі для даследнікаў, якія займаюцца стварэннем галасавых дыялогавых сістэм, платформаў для транскрыпцыі і аўтаматызаваных колл-цэнтраў. У адрозненне ад даступных раней праектаў, апублікаваныя мадэлі не абмяжоўваюцца распазнаннем англійскай мовы і ахопліваюць розныя мовы, акцэнты і формы гаворкі.

Нагадаем, што праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах.

Па меркаванні аўтара бібліятэкі распазнання злітнай гаворкі Vosk недахопамі набору Common Voice з'яўляецца аднабокасць галасавога матэрыялу (перавага людзей мужчынскай падлогі 20-30 гадоў, і недахоп матэрыялу з голасам жанчын, дзяцей і пажылых людзей), адсутнасць варыятыўнасці слоўніка (паўтарэнне адных і тых жа фраз) і распаўсюджванне запісаў ва ўносіць скажэнні фармаце MP3.

Крыніца: opennet.ru

Дадаць каментар