Mozilla Common Voice 7.0 ažuriranje

NVIDIA i Mozilla su objavile ažuriranje svojih Common Voice skupova podataka, koji uključuju 182 uzoraka govora ljudi, što je 25% više u odnosu na prije 6 mjeseci. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi se mogu koristiti u sistemima mašinskog učenja za izgradnju modela prepoznavanja i sinteze govora.

U poređenju sa prethodnim ažuriranjem, veličina govornog materijala u zbirci povećana je sa 9 na 13.9 hiljada sati govora. Broj podržanih jezika porastao je sa 60 na 76, uključujući po prvi put podršku za bjeloruski, kazahstanski, uzbekistanski, bugarski, armenski, azerbejdžanski i baškirski jezik. Komplet za ruski jezik obuhvata 2136 učesnika i 173 sata govornog materijala (učesnika je bilo 1412 i 111 sati), a za ukrajinski jezik 615 učesnika i 66 sati (učesnika je bilo 459 i 30 sati).

Više od 75 hiljada ljudi učestvovalo je u pripremi materijala na engleskom jeziku, diktirajući 2637 sati potvrđenog govora (učesnika je bilo 66 hiljada i 1686 sati). Zanimljivo, jezik na drugom mjestu po količini akumuliranih podataka je Ruanda, za koju je prikupljeno 2260 sati. Slijede njemački (1040), katalonski (920) i esperanto (840). Među najdinamičnijim povećanjem veličine glasovnih podataka su tajlandski jezik (20 puta povećanje baze, sa 12 na 250 sati), luganda (sa 8 na 80 sati), esperanto (sa 100 na 840 sati) i tamilski ( od 24 do 220 sati).

U sklopu svog učešća u projektu Common Voice, NVIDIA je na osnovu prikupljenih podataka pripremila gotove obučene modele za sisteme mašinskog učenja (podržane od PyTorch-a). Modeli se distribuiraju kao deo besplatnog i otvorenog NVIDIA NeMo kompleta alata, koji se, na primer, već koristi u automatizovanim glasovnim uslugama MTS-a i Sberbanke. Modeli su namijenjeni za korištenje u prepoznavanju govora, sintezi govora i sistemima za obradu prirodnog jezika, a mogu biti korisni istraživačima koji grade sisteme za dijalog koji se aktiviraju glasom, platforme za transkripciju i automatizirane pozivne centre. Za razliku od ranije dostupnih projekata, objavljeni modeli nisu ograničeni na prepoznavanje engleskog jezika i pokrivaju različite jezike, akcente i oblike govora.

Podsjetimo, projekat Common Voice ima za cilj organiziranje zajedničkog rada na akumulaciji baze podataka o glasovnim obrascima koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze koje se prikazuju na ekranu ili procjenjuju kvalitet podataka koje dodaju drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se bez ograničenja koristiti u sistemima mašinskog učenja i istraživačkim projektima.

Prema autoru Vosk biblioteke za kontinuirano prepoznavanje govora, nedostaci skupa Common Voice su jednostranost glasovnog materijala (prevlast muškaraca 20-30 godina i nedostatak materijala sa glasovima žena). , djeca i stari), nedostatak varijabilnosti u rječniku (ponavljanje istih fraza) i distribucija snimaka u iskrivljenom MP3 formatu.

izvor: opennet.ru

Dodajte komentar