Mozilla Common Voice 8.0 ažuriranje

Mozilla je objavila ažuriranje svojih skupova podataka Common Voice, koji uključuju uzorke izgovora od skoro 200 ljudi. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi se mogu koristiti u sistemima mašinskog učenja za izgradnju modela prepoznavanja i sinteze govora. U poređenju sa prethodnim ažuriranjem, obim govornog materijala u kolekciji povećan je za 30% - sa 13.9 na 18.2 hiljade sati govora. Broj podržanih jezika porastao je sa 67 na 87.

Komplet za ruski jezik obuhvata 2452 učesnika i 193 sata govornog materijala (bilo je 2136 učesnika i 173 sata), za bjeloruski jezik - 6160 učesnika i 987 sati (učesnika je bilo 3831 i 356 sati), za ukrajinski jezik - 684 učesnika i 76 sati (učesnika je bilo 615 i 66 sati). Više od 79 hiljada ljudi učestvovalo je u pripremi materijala na engleskom jeziku, diktirajući 2886 sati potvrđenog govora (učesnika je bilo 75 hiljada i 2637 sati).

Podsjetimo, projekat Common Voice ima za cilj organiziranje zajedničkog rada na akumulaciji baze podataka o glasovnim obrascima koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze koje se prikazuju na ekranu ili procjenjuju kvalitet podataka koje dodaju drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se bez ograničenja koristiti u sistemima mašinskog učenja i istraživačkim projektima. Prema autoru Vosk biblioteke za kontinuirano prepoznavanje govora, nedostaci skupa Common Voice su jednostranost glasovnog materijala (prevlast muškaraca 20-30 godina i nedostatak materijala sa glasovima žena). , djeca i stari), nedostatak varijabilnosti u rječniku (ponavljanje istih fraza) i distribucija snimaka u iskrivljenom MP3 formatu.

Osim toga, možemo primijetiti izdavanje NVIDIA NeMo 1.6 alata, koji pruža metode mašinskog učenja za kreiranje sistema za prepoznavanje govora, sintezu govora i obradu prirodnog jezika. NeMo uključuje obučene modele spremne za upotrebu za sisteme za mašinsko učenje zasnovane na PyTorch okviru, koje je pripremila NVIDIA koristeći Common Voice govorne podatke i pokrivaju različite jezike, akcente i oblike govora. Modeli mogu biti korisni za istraživače koji razvijaju sisteme za dijalog zasnovane na glasu, platforme za transkripciju i automatizovane pozivne centre. Na primjer, NVIDIA NeMo se koristi u automatiziranim glasovnim uslugama MTS-a i Sberbanke. NeMo kod je napisan u Pythonu koristeći PyTorch i distribuira se pod licencom Apache 2.0.

izvor: opennet.ru

Dodajte komentar