NVIDIA iegulda 1.5 miljonus USD Mozilla Common Voice projektā

NVIDIA iegulda 1.5 miljonus ASV dolāru Mozilla Common Voice projektā. Interese par runas atpazīŔanas sistēmām izriet no prognozes, ka nākamo desmit gadu laikā balss tehnoloÄ£ijas kļūs par vienu no galvenajiem veidiem, kā cilvēki mijiedarbojas ar dažādām ierÄ«cēm, sākot no datoriem un tālruņiem lÄ«dz digitālajiem asistentiem un tirdzniecÄ«bas automātiem.

Balss sistēmu veiktspēja ir ļoti atkarÄ«ga no maŔīnmācīŔanās modeļu apmācÄ«bai pieejamo balss datu apjoma un daudzveidÄ«bas. PaÅ”reizējās balss tehnoloÄ£ijas galvenokārt ir vērstas uz angļu valodas atpazīŔanu un neaptver plaÅ”u valodu, akcentu un runas modeļu klāstu. InvestÄ«cijas palÄ«dzēs paātrināt publiski pieejamo balss datu pieaugumu, iesaistÄ«t vairāk kopienu un brÄ«vprātÄ«go, kā arÄ« palielināt pilnas slodzes projekta darbinieku skaitu.

Atgādināsim, ka projekts Common Voice ir vērsts uz kopÄ«gu darbu organizēŔanu, lai uzkrātu balss rakstu datubāzi, kas ņem vērā balsu un runas stilu daudzveidÄ«bu. Lietotāji tiek aicināti izrunāt ekrānā redzamās frāzes vai novērtēt citu lietotāju pievienoto datu kvalitāti. Uzkrāto datu bāzi ar dažādu cilvēka runas tipisku frāžu dažādu izrunu ierakstiem var bez ierobežojumiem izmantot maŔīnmācÄ«bas sistēmās un pētniecÄ«bas projektos.

PaÅ”laik Common Voice datu kopā ir iekļauti izrunas paraugi no vairāk nekā 164 000 cilvēku, kas aptver aptuveni 9000 stundas balss datu 60 dažādās valodās. Krievu valodas datu kopā ir iekļauti 1412 dalÄ«bnieki un 111 stundas runas materiāla, savukārt ukraiņu valodas datu kopā ir iekļauti 459 dalÄ«bnieki un 30 stundas. SalÄ«dzinājumam, angļu valodas datu kopā vairāk nekā 66 000 cilvēku ir snieguÅ”i 1686 stundas pārbaudÄ«tas runas. Å Ä«s datu kopas var izmantot maŔīnmācīŔanās sistēmās, lai veidotu runas atpazīŔanas un sintēzes modeļus. Dati ir publicēti publiskajā domēnā (CC0).

Pēc nepārtrauktās runas atpazīŔanas bibliotēkas Vosk autora domām, Common Voice komplekta trÅ«kumi ir balss materiāla vienpusÄ«ba (20-30 gadus vecu vÄ«rieÅ”u pārsvars un materiāla trÅ«kums ar sievieÅ”u balsÄ«m. , bērni un veci cilvēki), vārdnÄ«cas mainÄ«guma trÅ«kums (vienu un to paÅ”u frāžu atkārtoÅ”ana) un ierakstu izplatīŔana kropļojoŔā MP3 formātā.

Avots: opennet.ru

Iegādājieties uzticamu mitināŔanu vietnēm ar DDoS aizsardzÄ«bu, VPS VDS serveriem šŸ”„ Iegādājieties uzticamu tÄ«mekļa vietņu mitināŔanu ar DDoS aizsardzÄ«bu, VPS VDS serveriem | ProHoster