Абнаўленне галасавых дадзеных Mozilla Common Voice 12.0

Кампанія Mozilla абнавіла наборы галасавых дадзеных Common Voice, якія ўключаюць прыклады вымаўлення больш за 200 тысяч чалавек. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення.

У параўнанні з мінулым абнаўленнем аб'ём маўленчага матэрыялу ў калекцыі павялічыўся з 23.8/25.8 да 88/3161 тысяч гадзін прамовы. У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 84 тысяч чалавек, якія дыктавалі 3098 гадзіну прамовы (было 7903 тысячы ўдзельнікаў і 1419 гадзін). Набор для беларускай мовы ахоплівае 6965 удзельнікаў і 1217 гадзін маўленчага матэрыялу (было — 2815 удзельнікаў і 229 гадзін), рускай мовы — 2731 удзельнікаў і 215 гадзін (было 2092 удзельнік і 262 гадзін), узбекскай — 2025 удзельнікі і 258 удзельнікаў. і 780 гадзін), украінскай мовы - 87 удзельнікаў і 759 гадзін (было 87 удзельнікаў і XNUMX гадзін).

Праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах.

Крыніца: opennet.ru

Дадаць каментар