🥇NVIDIA investuje 1.5 milióna dolárov do projektu Mozilla Common Voice

NVIDIA investuje 1.5 milióna dolárov do projektu Mozilla Common Voice. Záujem o systémy rozpoznávania reči pramení z predpovede, že v priebehu nasledujúcich desiatich rokov sa hlasová technológia stane jedným z hlavných spôsobov interakcie ľudí so zariadeniami od počítačov a telefónov až po digitálnych asistentov a kiosky.

Výkon hlasových systémov vo veľkej miere závisí od objemu a rozmanitosti hlasových údajov dostupných pre trénovacie modely strojového učenia. Dnešná hlasová technológia sa primárne zameriava na rozpoznávanie anglického jazyka a nepokrýva obrovské množstvo jazykov, prízvukov a rečových vzorov. Investícia pomôže urýchliť rast verejných hlasových dát, zapojí viac komunít a dobrovoľníkov a rozšíri počet projektových zamestnancov na plný úväzok.

Pripomeňme, že projekt Common Voice je zameraný na organizáciu spoločnej práce s cieľom zhromaždiť databázu hlasových vzorov, ktorá zohľadňuje rôznorodosť hlasov a štýlov reči. Používatelia sú pozývaní na hlasové frázy zobrazené na obrazovke alebo na vyhodnotenie kvality údajov pridaných inými používateľmi. Nahromadená databáza so záznamami rôznych výslovností typických fráz ľudskej reči môže byť bez obmedzení použitá v systémoch strojového učenia a vo výskumných projektoch.

Súbor Common Voice v súčasnosti obsahuje príklady výslovnosti od viac ako 164 9 ľudí. Nazhromaždilo sa približne 60 1412 hodín hlasových údajov v 111 rôznych jazykoch. Súbor pre ruský jazyk pokrýva 459 účastníkov a 30 hodín rečníckeho materiálu a pre ukrajinský jazyk - 66 účastníkov a 1686 hodín. Pre porovnanie, na príprave materiálov v angličtine sa podieľalo viac ako 0-tisíc ľudí, ktorí nadiktovali XNUMX hodín overeného prejavu. Navrhované sady môžu byť použité v systémoch strojového učenia na vytváranie modelov rozpoznávania reči a syntézy. Údaje sú zverejnené ako verejné dielo (CCXNUMX).

Nevýhodami sady Common Voice je podľa autora knižnice Vosk pre kontinuálne rozpoznávanie reči jednostrannosť hlasového materiálu (prevaha mužov vo veku 20-30 rokov a nedostatok materiálu s hlasmi žien). , deti a starší ľudia), nedostatok variability v slovníku (opakovanie rovnakých fráz) a distribúcia nahrávok v skresľujúcom formáte MP3.

Zdroj: opennet.ru