Mozilla Common Voice 9.0 ažuriranje

Mozilla je objavila ažuriranje svojih skupova podataka Common Voice, koji uključuju uzorke izgovora od skoro 200 ljudi. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi se mogu koristiti u sistemima mašinskog učenja za izgradnju modela prepoznavanja i sinteze govora.

U poređenju sa prethodnim ažuriranjem, obim govornog materijala u kolekciji povećan je za 10% - sa 18.2 na 20.2 hiljade sati govora. Broj podržanih jezika se povećao sa 87 na 93. Za 27 jezika prikupljeno je više od 100 sati govornih podataka, a za 9 - više od 500 sati govornih podataka. Za 9 jezika također je bilo moguće postići udio ženskog govora od najmanje 45%.

Više od 81 hiljade ljudi učestvovalo je u pripremi materijala na engleskom jeziku, diktirajući 2953 sata govora (učesnika je bilo 79 hiljada i 2886 sati). Komplet za bjeloruski jezik obuhvata 6326 učesnika i 1054 sata govornog materijala (učesnika je bilo 6160 i 987 sati), ruski - 2585 učesnika i 201 sat (učesnika je bilo 2452 i 193 sata), uzbečki jezik - 1503 učesnika i 231 sat ( bilo je 1355 učesnika i 227 sati), ukrajinski jezik - 696 učesnika i 79 sati (učesnika je bilo 684 i 76 sati).

Projekt Common Voice ima za cilj organizirati zajednički rad na akumulaciji baze podataka o glasovnim obrascima koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze koje se prikazuju na ekranu ili procjenjuju kvalitet podataka koje dodaju drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se bez ograničenja koristiti u sistemima mašinskog učenja i istraživačkim projektima.

izvor: opennet.ru

Dodajte komentar