Mozilla Common Voice 9.0 ձայնային թարմացում

Mozilla-ն թարմացում է թողարկել իր Common Voice տվյալների հավաքածուի համար, որը ներառում է արտասանության նմուշներ մոտ 200 մարդկանցից: Տվյալները հրապարակվում են որպես հանրային սեփականություն (CC0): Առաջարկվող հավաքածուները կարող են օգտագործվել մեքենայական ուսուցման համակարգերում՝ խոսքի ճանաչման և սինթեզի մոդելներ կառուցելու համար:

Նախորդ թարմացման համեմատ ժողովածուում խոսքի նյութի ծավալն աճել է 10%-ով՝ 18.2-ից հասնելով 20.2 հազար խոսքի ժամի։ Աջակցվող լեզուների թիվը 87-ից հասել է 93-ի: 27 լեզուների համար կուտակվել են ավելի քան 100 ժամ խոսքի տվյալներ, իսկ 9-ի համար՝ ավելի քան 500 ժամ խոսքի տվյալներ: 9 լեզուների համար հնարավոր է եղել նաև կանանց խոսքի մասնաբաժինը հասնել առնվազն 45%-ի:

Անգլերենով նյութերի պատրաստմանը մասնակցել է ավելի քան 81 հազար մարդ՝ թելադրելով 2953 ժամ ելույթ (79 հազար մասնակից և 2886 ժամ)։ Բելառուսերենի համար նախատեսված հավաքածուն ներառում է 6326 մասնակից և 1054 ժամ խոսքի նյութ (6160 մասնակից և 987 ժամ), ռուսերեն՝ 2585 մասնակից և 201 ժամ (2452 մասնակից և 193 ժամ), ուզբեկերեն՝ 1503 մասնակից և 231 ժամ ( մասնակցել է 1355 և 227 ժամ), ուկրաիներեն՝ 696 մասնակից և 79 ժամ (684 մասնակից և 76 ժամ)։

Common Voice նախագիծը նպատակ ունի կազմակերպել համատեղ աշխատանք ձայնային ձևերի տվյալների բազայի կուտակման համար, որը հաշվի է առնում ձայների և խոսքի ոճերի բազմազանությունը: Օգտագործողները հրավիրվում են էկրանին ցուցադրվող ձայնային արտահայտությունների կամ գնահատելու այլ օգտատերերի կողմից ավելացված տվյալների որակը: Մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների գրառումներով կուտակված տվյալների բազան կարող է օգտագործվել առանց սահմանափակումների մեքենայական ուսուցման համակարգերում և հետազոտական ​​նախագծերում:

Source: opennet.ru

Добавить комментарий