Mozilla Common Voice 8.0 ձայնային թարմացում

Mozilla-ն թարմացում է թողարկել իր Common Voice տվյալների հավաքածուի համար, որը ներառում է արտասանության նմուշներ մոտ 200 մարդկանցից: Տվյալները հրապարակվում են որպես հանրային սեփականություն (CC0): Առաջարկվող հավաքածուները կարող են օգտագործվել մեքենայական ուսուցման համակարգերում՝ խոսքի ճանաչման և սինթեզի մոդելներ կառուցելու համար: Նախորդ թարմացման համեմատ ժողովածուում խոսքի նյութի ծավալն աճել է 30%-ով՝ 13.9-ից հասնելով 18.2 հազար խոսքի ժամի։ Աջակցվող լեզուների թիվը 67-ից հասել է 87-ի։

Ռուսաց լեզվի համար նախատեսված հավաքածուն ներառում է 2452 մասնակից և 193 ժամ խոսքի նյութ (2136 մասնակից և 173 ժամ), բելառուսերենի համար՝ 6160 մասնակից և 987 ժամ (3831 մասնակից և 356 ժամ), ուկրաիներենի համար՝ 684 մասնակից և 76 ժամ (615 մասնակից և 66 ժամ): Անգլերենով նյութերի պատրաստմանը մասնակցել է ավելի քան 79 հազար մարդ՝ թելադրելով 2886 ժամ հաստատված ելույթ (75 հազար մասնակից և 2637 ժամ)։

Հիշեցնենք, որ Common Voice նախագիծը միտված է համատեղ աշխատանք կազմակերպելու ձայնային օրինաչափությունների շտեմարան կուտակելու համար, որը հաշվի է առնում ձայների և խոսքի ոճերի բազմազանությունը։ Օգտագործողները հրավիրվում են էկրանին ցուցադրվող ձայնային արտահայտությունների կամ գնահատելու այլ օգտատերերի կողմից ավելացված տվյալների որակը: Մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների գրառումներով կուտակված տվյալների բազան կարող է օգտագործվել առանց սահմանափակումների մեքենայական ուսուցման համակարգերում և հետազոտական ​​նախագծերում: Ըստ Vosk շարունակական խոսքի ճանաչման գրադարանի հեղինակի՝ Common Voice հավաքածուի թերությունները ձայնային նյութի միակողմանիությունն են (20-30 տարեկան արական սեռի գերակշռում և կանանց ձայնով նյութի բացակայությունը. , երեխաներ և տարեցներ), բառարանի փոփոխականության բացակայությունը (նույն արտահայտությունների կրկնությունը) և ձայնագրությունների տարածումը աղավաղող MP3 ձևաչափով։

Բացի այդ, մենք կարող ենք նշել NVIDIA NeMo 1.6 գործիքակազմի թողարկումը, որն ապահովում է մեքենայական ուսուցման մեթոդներ խոսքի ճանաչման համակարգերի ստեղծման, խոսքի սինթեզի և բնական լեզվի մշակման համար: NeMo-ն ներառում է PyTorch շրջանակի վրա հիմնված մեքենայական ուսուցման համակարգերի համար պատրաստի ուսուցանված մոդելներ, որոնք պատրաստված են NVIDIA-ի կողմից՝ օգտագործելով Common Voice խոսքի տվյալները և ընդգրկում են տարբեր լեզուներ, շեշտադրումներ և խոսքի ձևեր: Մոդելները կարող են օգտակար լինել ձայնի վրա հիմնված երկխոսության համակարգեր, տառադարձման հարթակներ և ավտոմատ զանգերի կենտրոններ մշակող հետազոտողների համար: Օրինակ, NVIDIA NeMo-ն օգտագործվում է ՄՏՍ-ի և Սբերբանկի ավտոմատացված ձայնային ծառայություններում: NeMo կոդը գրված է Python-ում PyTorch-ի միջոցով և տարածվում է Apache 2.0 լիցենզիայի ներքո:

Source: opennet.ru

Добавить комментарий