Glasovno ažuriranje Mozilla Common Voice 9.0

Mozilla je objavila ažuriranje svojih skupova podataka Common Voice, koji uključuju uzorke izgovora gotovo 200 ljudi. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi mogu se koristiti u sustavima strojnog učenja za izgradnju modela prepoznavanja govora i sinteze.

U usporedbi s prethodnim ažuriranjem, obujam govornog materijala u zbirci povećan je za 10% - s 18.2 na 20.2 tisuće sati govora. Broj podržanih jezika porastao je s 87 na 93. Za 27 jezika prikupljeno je više od 100 sati govornih podataka, a za 9 - više od 500 sati govornih podataka. Za 9 jezika također je bilo moguće postići udio ženskog govora od najmanje 45%.

U pripremi materijala na engleskom jeziku sudjelovalo je više od 81 tisuća ljudi koji su izdiktirali 2953 sata govora (bilo je 79 tisuća sudionika i 2886 sati). Komplet za bjeloruski jezik obuhvaća 6326 polaznika i 1054 sata govornog materijala (bilo je 6160 sudionika i 987 sati), ruski - 2585 sudionika i 201 sat (bilo je 2452 sudionika i 193 sata), uzbečki - 1503 sudionika i 231 sat ( bilo je 1355 sudionika i 227 sati), ukrajinski jezik - 696 sudionika i 79 sati (bilo je 684 sudionika i 76 sati).

Projekt Common Voice ima za cilj organizirati zajednički rad na prikupljanju baze podataka glasovnih uzoraka koja uzima u obzir raznolikost glasova i govornih stilova. Korisnici se pozivaju na glasovne fraze prikazane na ekranu ili ocjenjuju kvalitetu podataka koje su dodali drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se koristiti bez ograničenja u sustavima strojnog učenja iu istraživačkim projektima.

Izvor: opennet.ru

Dodajte komentar