NVIDIA ulaže 1.5 milijuna dolara u projekt Mozilla Common Voice

NVIDIA ulaže 1.5 milijuna dolara u projekt Mozilla Common Voice. Zanimanje za sustave prepoznavanja govora proizlazi iz predviđanja da će u sljedećih deset godina glasovna tehnologija postati jedan od glavnih načina na koji ljudi komuniciraju s uređajima u rasponu od računala i telefona do digitalnih asistenata i kioska.

Performanse glasovnih sustava uvelike ovise o količini i raznolikosti glasovnih podataka dostupnih za obuku modela strojnog učenja. Današnja glasovna tehnologija prvenstveno je usmjerena na prepoznavanje engleskog jezika i ne pokriva široku lepezu jezika, naglasaka i govornih obrazaca. Ulaganje će pomoći ubrzati rast javnih glasovnih podataka, angažirati više zajednica i volontera te povećati broj projektnog osoblja s punim radnim vremenom.

Podsjetimo, projekt Common Voice ima za cilj organizirati zajednički rad na prikupljanju baze podataka glasovnih uzoraka koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze prikazane na ekranu ili ocjenjuju kvalitetu podataka koje su dodali drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se koristiti bez ograničenja u sustavima strojnog učenja iu istraživačkim projektima.

Skup Common Voice trenutno uključuje primjere izgovora preko 164 9 ljudi. Sakupljeno je oko 60 tisuća sati glasovnih podataka na 1412 različitih jezika. Komplet za ruski jezik obuhvaća 111 polaznika i 459 sati govornog materijala, a za ukrajinski jezik - 30 polaznika i 66 sati. Za usporedbu, više od 1686 tisuća ljudi sudjelovalo je u pripremi materijala na engleskom jeziku, diktirajući 0 sati provjerenog govora. Predloženi skupovi mogu se koristiti u sustavima strojnog učenja za izgradnju modela prepoznavanja govora i sinteze. Podaci se objavljuju kao javna domena (CCXNUMX).

Prema autoru biblioteke kontinuiranog prepoznavanja govora Vosk, nedostaci skupa Common Voice su jednostranost glasovnog materijala (prevladavanje muških osoba od 20-30 godina i nedostatak materijala s glasovima žena). , djeca i starije osobe), nedostatak varijabilnosti u rječniku (ponavljanje istih fraza) i distribucija snimaka u iskrivljujućem MP3 formatu.

Izvor: opennet.ru

Dodajte komentar