NVIDIA vloži 1.5 milijona dolarjev v projekt Mozilla Common Voice

NVIDIA vlaga 1.5 milijona dolarjev v projekt Mozilla Common Voice. Zanimanje za sisteme za prepoznavanje govora izhaja iz napovedi, da bo glasovna tehnologija v naslednjih desetih letih postala eden glavnih načinov interakcije ljudi z napravami, od računalnikov in telefonov do digitalnih pomočnikov in kioskov.

Delovanje glasovnih sistemov je zelo odvisno od obsega in raznolikosti glasovnih podatkov, ki so na voljo za usposabljanje modelov strojnega učenja. Današnja glasovna tehnologija se osredotoča predvsem na prepoznavanje angleškega jezika in ne pokriva velikega števila jezikov, naglasov in govornih vzorcev. Naložba bo pomagala pospešiti rast javnih glasovnih podatkov, vključiti več skupnosti in prostovoljcev ter povečati število projektnega osebja s polnim delovnim časom.

Naj vas spomnimo, da je projekt Common Voice namenjen organizaciji skupnega dela za zbiranje baze glasovnih vzorcev, ki upošteva raznolikost glasov in govornih stilov. Uporabniki so povabljeni k glasovnim frazam, prikazanim na zaslonu, ali ocenijo kakovost podatkov, ki so jih dodali drugi uporabniki. Zbrano podatkovno bazo z zapisi različnih izgovarjav tipičnih fraz človeškega govora je mogoče brez omejitev uporabljati v sistemih za strojno učenje in v raziskovalnih projektih.

Nabor Common Voice trenutno vključuje primere izgovorjave več kot 164 ljudi. Zbranih je bilo približno 9 tisoč ur glasovnih podatkov v 60 različnih jezikih. Nabor za ruski jezik zajema 1412 udeležencev in 111 ur govornega gradiva, za ukrajinski jezik pa 459 udeležencev in 30 ur. Za primerjavo, pri pripravi materialov v angleščini je sodelovalo več kot 66 tisoč ljudi, ki so narekovali 1686 ur preverjenega govora. Predlagane nize je mogoče uporabiti v sistemih strojnega učenja za izdelavo modelov za prepoznavanje in sintezo govora. Podatki so javno dostopni (CC0).

Po mnenju avtorja knjižnice neprekinjenega prepoznavanja govora Vosk so slabosti nabora Common Voice enostranskost glasovnega materiala (prevladujejo moški ljudje, stari 20-30 let, in pomanjkanje materiala z glasovi žensk). , otroci in starejši), pomanjkanje variabilnosti v slovarju (ponavljanje istih besednih zvez) in distribucija posnetkov v formatu MP3, ki popači.

Vir: opennet.ru

Dodaj komentar