NVIDIA-ն 1.5 միլիոն դոլար է ներդրել Mozilla Common Voice նախագծում

NVIDIA-ն 1.5 միլիոն դոլար է ներդնում Mozilla Common Voice նախագծում։ Խոսքի ճանաչման համակարգերի նկատմամբ հետաքրքրությունը բխում է այն կանխատեսումից, որ առաջիկա տասը տարիների ընթացքում ձայնային տեխնոլոգիաները կդառնան մարդկանց հետ շփվելու հիմնական ուղիներից մեկը՝ սկսած համակարգիչներից և հեռախոսներից մինչև թվային օգնականներ և կրպակներ:

Ձայնային համակարգերի կատարումը մեծապես կախված է մեքենայական ուսուցման մոդելների ուսուցման համար հասանելի ձայնային տվյալների ծավալից և բազմազանությունից: Այսօրվա ձայնային տեխնոլոգիան հիմնականում կենտրոնանում է անգլերեն լեզվի ճանաչման վրա և չի ընդգրկում լեզուների, շեշտադրումների և խոսքի օրինաչափությունների լայն տեսականի: Ներդրումը կօգնի արագացնել հանրային ձայնային տվյալների աճը, ներգրավել ավելի շատ համայնքներ և կամավորներ և ընդլայնել ծրագրի լրիվ դրույքով աշխատողների թիվը:

Հիշեցնենք, որ Common Voice նախագիծը միտված է համատեղ աշխատանք կազմակերպելու ձայնային օրինաչափությունների շտեմարան կուտակելու համար, որը հաշվի է առնում ձայների և խոսքի ոճերի բազմազանությունը։ Օգտագործողները հրավիրվում են էկրանին ցուցադրվող ձայնային արտահայտությունների կամ գնահատելու այլ օգտատերերի կողմից ավելացված տվյալների որակը: Մարդկային խոսքի բնորոշ արտահայտությունների տարբեր արտասանությունների գրառումներով կուտակված տվյալների բազան կարող է օգտագործվել առանց սահմանափակումների մեքենայական ուսուցման համակարգերում և հետազոտական ​​նախագծերում:

Common Voice հավաքածուն ներկայումս ներառում է ավելի քան 164 մարդկանց արտասանության օրինակներ: Մոտ 9 հազար ժամ ձայնային տվյալներ են կուտակվել 60 տարբեր լեզուներով։ Ռուսաց լեզվի համար նախատեսված հավաքածուն ներառում է 1412 մասնակից և 111 ժամ խոսքի նյութ, իսկ ուկրաիներենի համար՝ 459 մասնակից և 30 ժամ: Համեմատության համար նշենք, որ անգլերենով նյութերի պատրաստմանը մասնակցել է ավելի քան 66 հազար մարդ՝ թելադրելով 1686 ժամ ստուգված խոսք։ Առաջարկվող հավաքածուները կարող են օգտագործվել մեքենայական ուսուցման համակարգերում՝ խոսքի ճանաչման և սինթեզի մոդելներ կառուցելու համար: Տվյալները հրապարակվում են որպես հանրային սեփականություն (CC0):

Ըստ Vosk շարունակական խոսքի ճանաչման գրադարանի հեղինակի՝ Common Voice հավաքածուի թերությունները ձայնային նյութի միակողմանիությունն են (20-30 տարեկան արական սեռի գերակշռում և կանանց ձայնով նյութի բացակայությունը. , երեխաներ և տարեցներ), բառարանի փոփոխականության բացակայությունը (նույն արտահայտությունների կրկնությունը) և ձայնագրությունների տարածումը աղավաղող MP3 ձևաչափով։

Source: opennet.ru

Добавить комментарий