Абнаўленне галасавых дадзеных Mozilla Common Voice 9.0

Кампанія Mozilla прадставіла абнаўленне набораў галасавых дадзеных Common Voice, якія ўключаюць прыклады вымаўлення каля 200 тысяч чалавек. Дадзеныя апублікаваны як грамадскі здабытак (CC0). Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення.

У параўнанні з мінулым абнаўленнем аб'ём маўленчага матэрыялу ў калекцыі павялічыўся на 10% - з 18.2 да 20.2 тысяч гадзін прамовы. Колькасць падтрымліваемых моў узрасла з 87 да 93. Для 27 моў назапашана больш за 100 гадзін маўленчых даных, а для 9 — больш за 500 гадзін маўленчых даных. Для 9 моў таксама ўдалося дабіцца долі жаночай гаворкі, якая складае як мінімум 45%.

У падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 81 тысяч чалавек, якія дыктавалі 2953 гадзін гаворкі (было 79 тысяч удзельнікаў і 2886 гадзін). Набор для беларускай мовы ахоплівае 6326 удзельнікаў і 1054 гадзіны маўленчага матэрыялу (было — 6160 удзельнікаў і 987 гадзін), рускай мовы — 2585 удзельнікаў і 201 гадзіну (было 2452 удзельнікі і 193 гадзіны), узбекскай — 1503 удзельнікі і 231 удзельнікаў. і 1355 гадзін), украінскай мовы - 227 удзельнікаў і 696 гадзін (было 79 удзельніка і 684 гадзін).

Праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах.

Крыніца: opennet.ru

Дадаць каментар