Mozilla Common Voice 7.0 Update

NVIDIA è Mozilla anu publicatu una aghjurnazione à i so datasets di Common Voice, chì includenu 182 campioni di discorsu di e persone, più di 25% da 6 mesi fà. I dati sò publicati cum'è duminiu publicu (CC0). I setti pruposti ponu esse aduprati in sistemi di machine learning per custruisce mudelli di ricunniscenza è sintesi vocale.

Comparatu à l'aghjurnamentu precedente, a dimensione di u materiale di parlà in a cullizzioni hè aumentata da 9 à 13.9 mila ore di discorsu. U numeru di lingue supportate hè aumentatu da 60 à 76, cumpresu per a prima volta u supportu per e lingue bielorusse, kazakh, uzbek, bulgaru, armenu, azerbaijan è bashkir. U settore per a lingua russa copre 2136 participanti è 173 ore di materiale di parlà (ci era 1412 participanti è 111 ore), è per a lingua ucraina - 615 participanti è 66 ore (ci era 459 participanti è 30 ore).

Più di 75 mila persone anu participatu à a preparazione di materiali in inglese, dictating 2637 ore di discorsu cunfirmatu (ci era 66 mila participanti è 1686 ore). Curiosamente, a lingua in u sicondu postu in quantu à a quantità di dati accumulati hè Rwanda, per quale 2260 ore sò state cullate. Segu da u tedescu (1040), u catalanu (920) è l'esperanto (840). Trà i più dinamichi chì aumentanu a dimensione di e dati di voce sò a lingua tailandese (aumentu di 20 volte in a basa, da 12 à 250 ore), Luganda (da 8 à 80 ore), Esperanto (da 100 à 840 ore) è Tamil ( da 24 à 220 ore).

In parte di a so participazione à u prughjettu Common Voice, NVIDIA hà preparatu mudelli furmati pronti per i sistemi di apprendimentu di machine (supportatu da PyTorch) basatu nantu à e dati raccolti. I mudelli sò distribuiti cum'è parte di u toolkit NVIDIA NeMo gratuitu è ​​apertu, chì, per esempiu, hè digià utilizatu in i servizii di voce automatizati di MTS è Sberbank. I mudelli sò destinati à l'usu in i sistemi di ricunniscenza vocale, sintesi vocale è di trasfurmazioni di lingua naturale, è ponu esse utili per i circadori chì custruiscenu sistemi di dialogu attivati ​​​​a voce, piattaforme di trascrizzione è call centers automatizati. A cuntrariu di i prughjetti dispunibili prima, i mudelli publicati ùn sò micca limitati à u ricunniscenza di a lingua inglese è copre una varietà di lingue, accenti è forme di parlà.

Ricordemu chì u prughjettu di a Voce Comuna hè destinatu à urganizà u travagliu cumunu per accumulà una basa di dati di mudelli di voce chì tene in contu a diversità di voci è stili di parlà. L'utilizatori sò invitati à e frasi di voce affissate nantu à u screnu o evaluà a qualità di e dati aghjuntu da altri utilizatori. A basa di dati accumulata cù registri di diverse pronunce di frasi tipiche di u discorsu umanu pò esse aduprata senza restrizioni in sistemi di apprendimentu machine è in prughjetti di ricerca.

Sicondu l'autore di a libreria di ricunniscenza di u discorsu Vosk continuu, i svantaghji di u settore Common Voice sò l'unilateralità di u materiale di voce (a predominanza di e persone maschili 20-30 anni, è a mancanza di materiale cù a voce di e donne). , i zitelli è l'anziani), a mancanza di variabilità in u dizziunariu (ripetizione di e stesse frasi) è a distribuzione di gravazioni in u furmatu MP3 distortu.

Source: opennet.ru

Add a comment