Glasovno ažuriranje Mozilla Common Voice 8.0

Mozilla je objavila ažuriranje svojih skupova podataka Common Voice, koji uključuju uzorke izgovora gotovo 200 ljudi. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi mogu se koristiti u sustavima strojnog učenja za izgradnju modela prepoznavanja govora i sinteze. U odnosu na prethodno ažuriranje, obujam govornog materijala u zbirci povećan je za 30% - sa 13.9 na 18.2 tisuće sati govora. Broj podržanih jezika porastao je sa 67 na 87.

Komplet za ruski jezik obuhvaća 2452 sudionika i 193 sata govornog materijala (bilo je 2136 sudionika i 173 sata), za bjeloruski jezik - 6160 sudionika i 987 sati (bilo je 3831 sudionika i 356 sati), za ukrajinski jezik - 684 sudionika i 76 sati (bilo je 615 sudionika i 66 sati). U pripremi materijala na engleskom jeziku sudjelovalo je više od 79 tisuća ljudi koji su izdiktirali 2886 sati potvrđenog govora (bilo je 75 tisuća sudionika i 2637 sati).

Podsjetimo, projekt Common Voice ima za cilj organizirati zajednički rad na prikupljanju baze podataka glasovnih uzoraka koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze prikazane na ekranu ili ocjenjuju kvalitetu podataka koje su dodali drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se koristiti bez ograničenja u sustavima strojnog učenja iu istraživačkim projektima. Prema autoru biblioteke kontinuiranog prepoznavanja govora Vosk, nedostaci skupa Common Voice su jednostranost glasovnog materijala (prevladavanje muških osoba od 20-30 godina i nedostatak materijala s glasovima žena). , djeca i starije osobe), nedostatak varijabilnosti u rječniku (ponavljanje istih fraza) i distribucija snimaka u iskrivljenom MP3 formatu.

Dodatno, možemo primijetiti izdanje alata NVIDIA NeMo 1.6, koji pruža metode strojnog učenja za stvaranje sustava za prepoznavanje govora, sintezu govora i obradu prirodnog jezika. NeMo uključuje obučene modele spremne za korištenje za sustave strojnog učenja temeljene na okviru PyTorch, koje je pripremila NVIDIA koristeći Common Voice govorne podatke i koji pokrivaju različite jezike, naglaske i oblike govora. Modeli bi mogli biti korisni istraživačima koji razvijaju glasovne sustave za dijalog, platforme za transkripciju i automatizirane pozivne centre. Na primjer, NVIDIA NeMo koristi se u automatiziranim glasovnim uslugama MTS-a i Sberbanke. NeMo kod je napisan u Pythonu koristeći PyTorch i distribuiran pod licencom Apache 2.0.

Izvor: opennet.ru

Dodajte komentar