Кампанія Mozilla прадставіла абнаўленне набораў галасавых дадзеных Common Voice, якія ўключаюць прыклады вымаўлення каля 200 тысяч чалавек. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення.
У параўнанні з мінулым абнаўленнем аб'ём маўленчага матэрыялу ў калекцыі павялічыўся на 10% - з 18.2 да 20.2 тысяч гадзін прамовы. Колькасць падтрымліваемых моў узрасла з 87 да 93. Для 27 моў назапашана больш за 100 гадзін маўленчых даных, а для 9 — больш за 500 гадзін маўленчых даных. Для 9 моў таксама ўдалося дабіцца долі жаночай гаворкі, якая складае як мінімум 45%.
У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 81 тысяч чалавек, якія дыктавалі 2953 гадзін гаворкі (было 79 тысяч удзельнікаў і 2886 гадзін). Набор для беларускай мовы ахоплівае 6326 удзельнікаў і 1054 гадзіны маўленчага матэрыялу (было — 6160 удзельнікаў і 987 гадзін), рускай мовы — 2585 удзельнікаў і 201 гадзіну (было 2452 удзельнікі і 193 гадзіны), узбекскай — 1503 удзельнікі і 231 удзельнікаў. і 1355 гадзін), украінскай мовы - 227 удзельнікаў і 696 гадзін (было 79 удзельніка і 684 гадзін).
Праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах.
Крыніца: opennet.ru