NVIDIA investe $ 1.5 milioni in u prughjettu Mozilla Common Voice

NVIDIA investe $ 1.5 milioni in u prughjettu Mozilla Common Voice. L'interessu in i sistemi di ricunniscenza di a voce deriva da a predizione chì in i prossimi deci anni, a tecnulugia di a voce diventerà unu di i modi principali chì a ghjente interagisce cù i dispositi chì varienu da l'urdinatori è i telefoni à l'assistenti digitale è i kioschi.

A prestazione di i sistemi di voce hè assai dipendente da u voluminu è a varietà di dati di voce dispunibuli per i mudelli di furmazione di machine learning. A tecnulugia di voce d'oghje si concentra principalmente in u ricunniscenza di a lingua inglese è ùn copre micca a vasta gamma di lingue, accenti è mudelli di parlà. L'investimentu aiuterà à accelerà a crescita di e dati di voce publica, impegnà più cumunità è vuluntarii, è espansione u numeru di persunale di prughjettu à tempu pienu.

Ricordemu chì u prughjettu di a Voce Comuna hè destinatu à urganizà u travagliu cumunu per accumulà una basa di dati di mudelli di voce chì tene in contu a diversità di voci è stili di parlà. L'utilizatori sò invitati à e frasi di voce affissate nantu à u screnu o evaluà a qualità di e dati aghjuntu da altri utilizatori. A basa di dati accumulata cù registri di diverse pronunce di frasi tipiche di u discorsu umanu pò esse aduprata senza restrizioni in sistemi di apprendimentu machine è in prughjetti di ricerca.

U settore di Voce Comuna include attualmente esempi di pronuncia da più di 164 9 persone. Circa 60 mila ore di dati di voce sò stati accumulati in 1412 lingue diverse. U settore per a lingua russa copre 111 participanti è 459 ore di materiale di parlà, è per a lingua ucraina - 30 participanti è 66 ore. Per paragone, più di 1686 mila persone anu participatu à a preparazione di materiali in inglese, dettandu 0 ore di discorsu verificatu. I setti pruposti ponu esse aduprati in sistemi d'apprendimentu automaticu per custruisce mudelli di ricunniscenza è sintesi vocale. I dati sò publicati cum'è duminiu publicu (CCXNUMX).

Sicondu l'autore di a libreria di ricunniscenza di u discorsu Vosk continuu, i svantaghji di u settore Common Voice sò l'unilateralità di u materiale di voce (a predominanza di e persone maschili 20-30 anni, è a mancanza di materiale cù a voce di e donne). , i zitelli è l'anziani), a mancanza di variabilità in u dizziunariu (ripetizione di e stesse frasi) è a distribuzione di gravazioni in u furmatu MP3 distortu.

Source: opennet.ru

Add a comment