Glasovna posodobitev Mozilla Common Voice 9.0

Mozilla je izdala posodobitev svojih naborov podatkov Common Voice, ki vključujejo vzorce izgovorjave skoraj 200 ljudi. Podatki so javno dostopni (CC0). Predlagane nize je mogoče uporabiti v sistemih strojnega učenja za izdelavo modelov za prepoznavanje in sintezo govora.

V primerjavi s prejšnjo posodobitvijo se je obseg govornega gradiva v zbirki povečal za 10 % – z 18.2 na 20.2 tisoč ur govora. Število podprtih jezikov se je povečalo s 87 na 93. Za 27 jezikov je bilo zbranih več kot 100 ur govornih podatkov, za 9 pa več kot 500 ur govornih podatkov. Za 9 jezikov je bilo mogoče doseči tudi delež ženskega govora vsaj 45 %.

Pri pripravi gradiv v angleščini je sodelovalo več kot 81 tisoč ljudi, ki so narekovali 2953 ur govora (bilo je 79 tisoč udeležencev in 2886 ur). Nabor za beloruski jezik obsega 6326 udeležencev in 1054 ur govornega gradiva (bilo je 6160 udeležencev in 987 ur), ruski - 2585 udeležencev in 201 uro (bilo je 2452 udeležencev in 193 ur), uzbek - 1503 udeležencev in 231 ur ( bilo je 1355 udeležencev in 227 ur), ukrajinski jezik - 696 udeležencev in 79 ur (bilo je 684 udeležencev in 76 ur).

Cilj projekta Common Voice je organizirati skupno delo za zbiranje podatkovne baze glasovnih vzorcev, ki upošteva raznolikost glasov in govornih stilov. Uporabniki so povabljeni k glasovnim frazam, prikazanim na zaslonu, ali ocenijo kakovost podatkov, ki so jih dodali drugi uporabniki. Zbrano podatkovno bazo z zapisi različnih izgovarjav tipičnih fraz človeškega govora je mogoče brez omejitev uporabljati v sistemih za strojno učenje in v raziskovalnih projektih.

Vir: opennet.ru

Dodaj komentar