Glasovno ažuriranje Mozilla Common Voice 12.0

Mozilla je ažurirala svoje skupove podataka Common Voice kako bi uključila uzorke izgovora više od 200 ljudi. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi mogu se koristiti u sustavima strojnog učenja za izgradnju modela prepoznavanja govora i sinteze.

U odnosu na prethodno ažuriranje, obujam govorne građe u zbirci povećan je s 23.8 na 25.8 tisuća sati govora. U pripremi materijala na engleskom jeziku sudjelovalo je više od 88 tisuća ljudi koji su izdiktirali 3161 sat govora (bilo je 84 tisuće sudionika i 3098 sati). Komplet za bjeloruski jezik obuhvaća 7903 polaznika i 1419 sati govornog materijala (bilo je 6965 sudionika i 1217 sati), ruski - 2815 sudionika i 229 sati (bilo je 2731 sudionika i 215 sati), uzbečki - 2092 sudionika i 262 sata ( bilo je 2025 sudionika i 258 sati), ukrajinski jezik - 780 sudionika i 87 sati (bilo je 759 sudionika i 87 sati).

Projekt Common Voice ima za cilj organizirati zajednički rad na prikupljanju baze podataka glasovnih uzoraka koja uzima u obzir raznolikost glasova i govornih stilova. Korisnici se pozivaju na glasovne fraze prikazane na ekranu ili ocjenjuju kvalitetu podataka koje su dodali drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se koristiti bez ograničenja u sustavima strojnog učenja iu istraživačkim projektima.

Izvor: opennet.ru

Dodajte komentar