Кампанія Mozilla абнавіла наборы галасавых дадзеных Common Voice, якія ўключаюць прыклады вымаўлення больш за 200 тысяч чалавек. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення.
У параўнанні з мінулым абнаўленнем аб'ём маўленчага матэрыялу ў калекцыі павялічыўся з 23.8/25.8 да 88/3161 тысяч гадзін прамовы. У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 84 тысяч чалавек, якія дыктавалі 3098 гадзіну прамовы (было 7903 тысячы ўдзельнікаў і 1419 гадзін). Набор для беларускай мовы ахоплівае 6965 удзельнікаў і 1217 гадзін маўленчага матэрыялу (было — 2815 удзельнікаў і 229 гадзін), рускай мовы — 2731 удзельнікаў і 215 гадзін (было 2092 удзельнік і 262 гадзін), узбекскай — 2025 удзельнікі і 258 удзельнікаў. і 780 гадзін), украінскай мовы - 87 удзельнікаў і 759 гадзін (было 87 удзельнікаў і XNUMX гадзін).
Праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах.
Крыніца: opennet.ru