NVIDIA ulaže 1.5 miliona dolara u projekat Mozilla Common Voice

NVIDIA ulaže 1.5 miliona dolara u projekat Mozilla Common Voice. Interes za sisteme za prepoznavanje govora proizlazi iz predviđanja da će u narednih deset godina glasovna tehnologija postati jedan od glavnih načina na koji ljudi komuniciraju sa uređajima u rasponu od kompjutera i telefona do digitalnih asistenata i kioska.

Performanse glasovnih sistema u velikoj meri zavise od jačine i raznovrsnosti glasovnih podataka dostupnih za obuku modela mašinskog učenja. Današnja glasovna tehnologija prvenstveno se fokusira na prepoznavanje engleskog jezika i ne pokriva široku lepezu jezika, akcenata i govornih obrazaca. Investicija će pomoći da se ubrza rast javnih glasovnih podataka, angažuje više zajednica i volontera i proširi broj osoblja na projektu s punim radnim vremenom.

Podsjetimo, projekat Common Voice ima za cilj organiziranje zajedničkog rada na akumulaciji baze podataka o glasovnim obrascima koja uzima u obzir raznolikost glasova i stilova govora. Korisnici se pozivaju na glasovne fraze koje se prikazuju na ekranu ili procjenjuju kvalitet podataka koje dodaju drugi korisnici. Akumulirana baza podataka sa zapisima različitih izgovora tipičnih fraza ljudskog govora može se bez ograničenja koristiti u sistemima mašinskog učenja i istraživačkim projektima.

Skup Common Voice trenutno uključuje primjere izgovora od preko 164 ljudi. Akumulirano je oko 9 hiljada sati glasovnih podataka na 60 različitih jezika. Komplet za ruski jezik obuhvata 1412 učesnika i 111 sati govornog materijala, a za ukrajinski jezik 459 učesnika i 30 sati. Poređenja radi, više od 66 hiljada ljudi učestvovalo je u pripremi materijala na engleskom jeziku, diktirajući 1686 sati verifikovanog govora. Predloženi skupovi se mogu koristiti u sistemima mašinskog učenja za izgradnju modela prepoznavanja i sinteze govora. Podaci se objavljuju kao javna domena (CC0).

Prema autoru Vosk biblioteke za kontinuirano prepoznavanje govora, nedostaci skupa Common Voice su jednostranost glasovnog materijala (prevlast muškaraca 20-30 godina i nedostatak materijala sa glasovima žena). , djeca i stari), nedostatak varijabilnosti u rječniku (ponavljanje istih fraza) i distribucija snimaka u iskrivljenom MP3 formatu.

izvor: opennet.ru

Dodajte komentar