Mozilla Common Voice 12.0 ձայնային թարմացում

Mozilla-ն թարմացրել է իր «Common Voice» տվյալների հավաքածուն՝ ներառելով ավելի քան 200 մարդկանց արտասանության նմուշներ: Տվյալները հրապարակվում են որպես հանրային սեփականություն (CC0): Առաջարկվող հավաքածուները կարող են օգտագործվել մեքենայական ուսուցման համակարգերում՝ խոսքի ճանաչման և սինթեզի մոդելներ ստեղծելու համար:

Նախորդ թարմացման համեմատ ժողովածուում խոսքի նյութի ծավալը 23.8-ից հասել է 25.8 հազար խոսքի ժամի։ Անգլերենով նյութերի պատրաստմանը մասնակցել է ավելի քան 88 հազար մարդ՝ թելադրելով 3161 ժամ ելույթ (84 հազար մասնակից և 3098 ժամ)։ Բելառուսերենի համար նախատեսված հավաքածուն ներառում է 7903 մասնակից և 1419 ժամ խոսքի նյութ (6965 մասնակից և 1217 ժամ), ռուսերեն՝ 2815 մասնակից և 229 ժամ (2731 մասնակից և 215 ժամ), ուզբեկերեն՝ 2092 մասնակից և 262 ժամ ( մասնակցել է 2025 և 258 ժամ), ուկրաիներեն՝ 780 մասնակից և 87 ժամ (759 մասնակից և 87 ժամ)։

Common Voice նախագիծը նպատակ ունի կազմակերպել համատեղ աշխատանք ձայնային ձևերի տվյալների բազայի կուտակման համար, որը հաշվի է առնում ձայների և խոսքի ոճերի բազմազանությունը: Օգտագործողները հրավիրվում են էկրանին ցուցադրվող ձայնային արտահայտությունների կամ գնահատելու այլ օգտատերերի կողմից ավելացված տվյալների որակը: Մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների գրառումներով կուտակված տվյալների բազան կարող է օգտագործվել առանց սահմանափակումների մեքենայական ուսուցման համակարգերում և հետազոտական ​​նախագծերում:

Source: opennet.ru

Добавить комментарий