Glasovno ažuriranje Mozilla Common Voice 7.0

NVIDIA i Mozilla objavile su ažuriranje svojih skupova podataka Common Voice, koji uključuju 182 uzoraka govora ljudi, što je 25% više nego prije 6 mjeseci. Podaci se objavljuju kao javna domena (CC0). Predloženi skupovi mogu se koristiti u sustavima strojnog učenja za izgradnju modela prepoznavanja govora i sinteze.

U odnosu na prethodno ažuriranje, veličina govornog materijala u zbirci povećana je s 9 na 13.9 tisuća sati govora. Broj podržanih jezika porastao je sa 60 na 76, uključujući po prvi put podršku za bjeloruski, kazahstanski, uzbečki, bugarski, armenski, azerbajdžanski i baškirski jezik. Komplet za ruski jezik obuhvaća 2136 polaznika i 173 sata govornog materijala (bilo je 1412 polaznika i 111 sati), a za ukrajinski jezik - 615 polaznika i 66 sati (bilo je 459 polaznika i 30 sati).

U pripremi materijala na engleskom jeziku sudjelovalo je više od 75 tisuća ljudi koji su izdiktirali 2637 sati potvrđenog govora (bilo je 66 tisuća sudionika i 1686 sati). Zanimljivo, jezik na drugom mjestu po količini akumuliranih podataka je Ruanda, za koji je prikupljeno 2260 sati. Slijede njemački (1040), katalonski (920) i esperanto (840). Među glasovnim podacima s najdinamičnijim povećanjem veličine su tajlandski jezik (povećanje baze od 20 puta, s 12 na 250 sati), luganda (sa 8 na 80 sati), esperanto (sa 100 na 840 sati) i tamilski ( od 24 do 220 sati).sati).

NVIDIA je u sklopu sudjelovanja u projektu Common Voice na temelju prikupljenih podataka pripremila gotove obučene modele za sustave strojnog učenja (podržane s PyTorchom). Modeli se distribuiraju kao dio besplatnog i otvorenog alata NVIDIA NeMo koji se, primjerice, već koristi u automatiziranim glasovnim uslugama MTS-a i Sberbanka. Modeli su namijenjeni za korištenje u prepoznavanju govora, sintezi govora i sustavima za obradu prirodnog jezika, a mogu biti korisni istraživačima koji grade glasovno aktivirane dijaloške sustave, platforme za transkripciju i automatizirane pozivne centre. Za razliku od prethodno dostupnih projekata, objavljeni modeli nisu ograničeni na prepoznavanje engleskog jezika i pokrivaju različite jezike, naglaske i oblike govora.

Podsjetimo, projekt Common Voice ima za cilj organizirati zajednički rad na prikupljanju baze podataka glasovnih uzoraka koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze prikazane na ekranu ili ocjenjuju kvalitetu podataka koje su dodali drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se koristiti bez ograničenja u sustavima strojnog učenja iu istraživačkim projektima.

Prema autoru biblioteke kontinuiranog prepoznavanja govora Vosk, nedostaci skupa Common Voice su jednostranost glasovnog materijala (prevladavanje muških osoba od 20-30 godina i nedostatak materijala s glasovima žena). , djeca i starije osobe), nedostatak varijabilnosti u rječniku (ponavljanje istih fraza) i distribucija snimaka u iskrivljujućem MP3 formatu.

Izvor: opennet.ru

Dodajte komentar