Mozilla Common Voice 12.0 ažuriranje

Mozilla je ažurirala svoje skupove podataka Common Voice kako bi uključila uzorke izgovora od preko 200 ljudi. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi se mogu koristiti u sistemima mašinskog učenja za izgradnju modela prepoznavanja i sinteze govora.

U poređenju sa prethodnim ažuriranjem, obim govornog materijala u zbirci povećan je sa 23.8 na 25.8 hiljada sati govora. Više od 88 hiljada ljudi učestvovalo je u pripremi materijala na engleskom jeziku, diktirajući 3161 sat govora (učesnika je bilo 84 hiljade i 3098 sati). Komplet za bjeloruski jezik obuhvata 7903 učesnika i 1419 sati govornog materijala (učesnika je bilo 6965 i 1217 sati), ruski - 2815 učesnika i 229 sati (2731 učesnika i 215 sati), uzbečki jezik - 2092 učesnika i 262 sata ( bilo je 2025 učesnika i 258 sati), ukrajinski jezik - 780 učesnika i 87 sati (učesnika je bilo 759 i 87 sati).

Projekt Common Voice ima za cilj organizirati zajednički rad na akumulaciji baze podataka o glasovnim obrascima koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze koje se prikazuju na ekranu ili procjenjuju kvalitet podataka koje dodaju drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se bez ograničenja koristiti u sistemima mašinskog učenja i istraživačkim projektima.

izvor: opennet.ru

Dodajte komentar