Glasovna posodobitev Mozilla Common Voice 12.0

Mozilla je posodobila svoje nabore podatkov Common Voice, da vključuje vzorce izgovorjave več kot 200 ljudi. Podatki so javno dostopni (CC0). Predlagane nize je mogoče uporabiti v sistemih strojnega učenja za izdelavo modelov za prepoznavanje in sintezo govora.

V primerjavi s prejšnjo posodobitvijo se je obseg govornega gradiva v zbirki povečal s 23.8 na 25.8 tisoč ur govora. Pri pripravi gradiv v angleščini je sodelovalo več kot 88 tisoč ljudi, ki so narekovali 3161 ur govora (bilo je 84 tisoč udeležencev in 3098 ur). Nabor za beloruski jezik zajema 7903 udeležencev in 1419 ur govornega gradiva (bilo je 6965 udeležencev in 1217 ur), ruščino - 2815 udeležencev in 229 ur (bilo je 2731 udeležencev in 215 ur), uzbekistan - 2092 udeležencev in 262 ur ( bilo je 2025 udeležencev in 258 ur), ukrajinski jezik - 780 udeležencev in 87 ur (bilo je 759 udeležencev in 87 ur).

Cilj projekta Common Voice je organizirati skupno delo za zbiranje podatkovne baze glasovnih vzorcev, ki upošteva raznolikost glasov in govornih stilov. Uporabniki so povabljeni k glasovnim frazam, prikazanim na zaslonu, ali ocenijo kakovost podatkov, ki so jih dodali drugi uporabniki. Zbrano podatkovno bazo z zapisi različnih izgovarjav tipičnih fraz človeškega govora je mogoče brez omejitev uporabljati v sistemih za strojno učenje in v raziskovalnih projektih.

Vir: opennet.ru

Dodaj komentar