Mozilla Common Voice 7.0 ձայնային թարմացում

NVIDIA-ն և Mozilla-ն թարմացրել են իրենց Common Voice տվյալների հավաքածուները, որոնք ներառում են 182 մարդկանց խոսքի նմուշներ՝ 25%-ով ավելի, քան 6 ամիս առաջ: Տվյալները հրապարակվում են որպես հանրային սեփականություն (CC0): Առաջարկվող հավաքածուները կարող են օգտագործվել մեքենայական ուսուցման համակարգերում՝ խոսքի ճանաչման և սինթեզի մոդելներ կառուցելու համար:

Նախորդ թարմացման համեմատ ժողովածուի խոսքային նյութի չափը 9-ից հասել է 13.9 հազար խոսքի ժամի։ Աջակցվող լեզուների թիվը 60-ից հասել է 76-ի, ներառյալ առաջին անգամ աջակցությունը բելառուսերեն, ղազախերեն, ուզբեկերեն, բուլղարերեն, հայերեն, ադրբեջաներեն և բաշկիրերեն լեզուներին։ Ռուսաց լեզվի համար նախատեսված հավաքածուն ներառում է 2136 մասնակից և 173 ժամ խոսքի նյութ (1412 մասնակից և 111 ժամ), իսկ ուկրաիներենի համար՝ 615 մասնակից և 66 ժամ (459 մասնակից և 30 ժամ):

Անգլերենով նյութերի պատրաստմանը մասնակցել է ավելի քան 75 հազար մարդ՝ թելադրելով 2637 ժամ հաստատված ելույթ (66 հազար մասնակից և 1686 ժամ)։ Հետաքրքիր է, որ կուտակված տվյալների քանակով երկրորդ տեղում գտնվող լեզուն Ռուանդան է, որի համար հավաքվել է 2260 ժամ։ Դրան հաջորդում են գերմաներենը (1040), կատալոներենը (920) և էսպերանտո (840): Ձայնային տվյալների չափը ամենադինամիկ աճողներից են թայերենը (բազայի 20 անգամ աճ՝ 12 ժամից մինչև 250 ժամ), Լուգանդան (8-ից մինչև 80 ժամ), էսպերանտո (100-ից մինչև 840 ժամ) և թամիլերենը ( 24-ից մինչև 220 ժամ) ժամ):

Common Voice նախագծին իր մասնակցության շրջանակներում NVIDIA-ն հավաքագրված տվյալների հիման վրա պատրաստեց պատրաստի ուսուցանված մոդելներ մեքենայական ուսուցման համակարգերի համար (աջակցվում է PyTorch-ի կողմից): Մոդելները տարածվում են որպես անվճար և բաց NVIDIA NeMo գործիքակազմի մաս, որն, օրինակ, արդեն օգտագործվում է ՄՏՍ-ի և Սբերբանկի ավտոմատ ձայնային ծառայություններում: Մոդելները նախատեսված են խոսքի ճանաչման, խոսքի սինթեզի և բնական լեզվի մշակման համակարգերում օգտագործելու համար և կարող են օգտակար լինել ձայնով ակտիվացված երկխոսության համակարգեր, տառադարձման հարթակներ և ավտոմատ զանգերի կենտրոններ կառուցող հետազոտողների համար: Ի տարբերություն նախկինում հասանելի նախագծերի, հրապարակված մոդելները չեն սահմանափակվում անգլերեն լեզվի ճանաչմամբ և ընդգրկում են տարբեր լեզուներ, շեշտադրումներ և խոսքի ձևեր:

Հիշեցնենք, որ Common Voice նախագիծը միտված է համատեղ աշխատանք կազմակերպելու ձայնային օրինաչափությունների շտեմարան կուտակելու համար, որը հաշվի է առնում ձայների և խոսքի ոճերի բազմազանությունը։ Օգտագործողները հրավիրվում են էկրանին ցուցադրվող ձայնային արտահայտությունների կամ գնահատելու այլ օգտատերերի կողմից ավելացված տվյալների որակը: Մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների գրառումներով կուտակված տվյալների բազան կարող է օգտագործվել առանց սահմանափակումների մեքենայական ուսուցման համակարգերում և հետազոտական ​​նախագծերում:

Ըստ Vosk շարունակական խոսքի ճանաչման գրադարանի հեղինակի՝ Common Voice հավաքածուի թերությունները ձայնային նյութի միակողմանիությունն են (20-30 տարեկան արական սեռի գերակշռում և կանանց ձայնով նյութի բացակայությունը. , երեխաներ և տարեցներ), բառարանի փոփոխականության բացակայությունը (նույն արտահայտությունների կրկնությունը) և ձայնագրությունների տարածումը աղավաղող MP3 ձևաչափով։

Source: opennet.ru

Добавить комментарий