Glasovna posodobitev Mozilla Common Voice 8.0

Mozilla je izdala posodobitev svojih naborov podatkov Common Voice, ki vključujejo vzorce izgovorjave skoraj 200 ljudi. Podatki so javno dostopni (CC0). Predlagane nize je mogoče uporabiti v sistemih strojnega učenja za izdelavo modelov za prepoznavanje in sintezo govora. V primerjavi s prejšnjo posodobitvijo se je obseg govornega gradiva v zbirki povečal za 30 % – s 13.9 na 18.2 tisoč ur govora. Število podprtih jezikov se je povečalo s 67 na 87.

Komplet za ruski jezik zajema 2452 udeležencev in 193 ur govornega gradiva (bilo je 2136 udeležencev in 173 ur), za beloruski jezik - 6160 udeležencev in 987 ur (bilo je 3831 udeležencev in 356 ur), za ukrajinski jezik - 684 udeležencev in 76 ur (bilo je 615 udeležencev in 66 ur). Pri pripravi gradiv v angleščini je sodelovalo več kot 79 tisoč ljudi, ki so narekovali 2886 ur potrjenega govora (bilo je 75 tisoč udeležencev in 2637 ur).

Naj vas spomnimo, da je projekt Common Voice namenjen organizaciji skupnega dela za zbiranje baze glasovnih vzorcev, ki upošteva raznolikost glasov in govornih stilov. Uporabniki so povabljeni k glasovnim frazam, prikazanim na zaslonu, ali ocenijo kakovost podatkov, ki so jih dodali drugi uporabniki. Zbrano podatkovno bazo z zapisi različnih izgovarjav tipičnih fraz človeškega govora je mogoče brez omejitev uporabljati v sistemih za strojno učenje in v raziskovalnih projektih. Po mnenju avtorja knjižnice neprekinjenega prepoznavanja govora Vosk so slabosti nabora Common Voice enostranskost glasovnega materiala (prevladujejo moški ljudje, stari 20-30 let, in pomanjkanje materiala z glasovi žensk). , otroci in starejši), pomanjkanje variabilnosti v slovarju (ponavljanje istih besednih zvez) in distribucija posnetkov v formatu MP3, ki popači.

Poleg tega lahko opazimo izdajo kompleta orodij NVIDIA NeMo 1.6, ki ponuja metode strojnega učenja za ustvarjanje sistemov za prepoznavanje govora, sintezo govora in obdelavo naravnega jezika. NeMo vključuje pripravljene za uporabo pripravljene modele za sisteme strojnega učenja, ki temeljijo na ogrodju PyTorch, ki jih je pripravila NVIDIA z uporabo govornih podatkov Common Voice in pokrivajo različne jezike, poudarke in oblike govora. Modeli so lahko uporabni za raziskovalce, ki razvijajo glasovne dialoge, platforme za prepisovanje in avtomatizirane klicne centre. Na primer, NVIDIA NeMo se uporablja v avtomatiziranih glasovnih storitvah MTS in Sberbank. Koda NeMo je napisana v Pythonu z uporabo PyTorcha in se distribuira pod licenco Apache 2.0.

Vir: opennet.ru

Dodaj komentar