NVIDIA iegulda 1.5 miljonus USD Mozilla Common Voice projektā

NVIDIA iegulda 1.5 miljonus ASV dolāru Mozilla Common Voice projektā. Interese par runas atpazīšanas sistēmām izriet no prognozēm, ka nākamo desmit gadu laikā balss tehnoloģija kļūs par vienu no galvenajiem veidiem, kā cilvēki mijiedarbojas ar ierīcēm, sākot no datoriem un tālruņiem līdz digitālajiem palīgiem un kioskiem.

Balss sistēmu veiktspēja ir ļoti atkarīga no balss datu apjoma un daudzveidības, kas ir pieejami apmācību mašīnmācības modeļiem. Mūsdienu balss tehnoloģija galvenokārt koncentrējas uz angļu valodas atpazīšanu un neaptver plašo valodu, akcentu un runas modeļu klāstu. Investīcijas palīdzēs paātrināt publisko balss datu pieaugumu, iesaistīt vairāk kopienu un brīvprātīgo, kā arī paplašināt pilna laika projekta darbinieku skaitu.

Atgādināsim, ka projekts Common Voice ir vērsts uz kopīgu darbu organizēšanu, lai uzkrātu balss rakstu datubāzi, kas ņem vērā balsu un runas stilu daudzveidību. Lietotāji tiek aicināti izrunāt ekrānā redzamās frāzes vai novērtēt citu lietotāju pievienoto datu kvalitāti. Uzkrāto datu bāzi ar dažādu cilvēka runas tipisku frāžu dažādu izrunu ierakstiem var bez ierobežojumiem izmantot mašīnmācības sistēmās un pētniecības projektos.

Kopējā balss komplektā pašlaik ir vairāk nekā 164 9 cilvēku izrunas piemēri. Ir uzkrāti aptuveni 60 tūkstoši stundu balss datu 1412 dažādās valodās. Krievu valodas komplekts aptver 111 dalībniekus un 459 stundas runas materiāla, bet ukraiņu valodai - 30 dalībniekus un 66 stundas. Salīdzinājumam, materiālu sagatavošanā angļu valodā piedalījās vairāk nekā 1686 tūkstoši cilvēku, diktējot 0 stundas pārbaudītas runas. Ierosinātās kopas var izmantot mašīnmācīšanās sistēmās, lai izveidotu runas atpazīšanas un sintēzes modeļus. Dati tiek publicēti kā publiskais domēns (CCXNUMX).

Pēc nepārtrauktās runas atpazīšanas bibliotēkas Vosk autora domām, Common Voice komplekta trūkumi ir balss materiāla vienpusība (20-30 gadus vecu vīriešu pārsvars un materiāla trūkums ar sieviešu balsīm. , bērni un veci cilvēki), vārdnīcas mainīguma trūkums (vienu un to pašu frāžu atkārtošana) un ierakstu izplatīšana kropļojošā MP3 formātā.

Avots: opennet.ru

Pievieno komentāru