Actualització de Mozilla Common Voice 7.0

NVIDIA i Mozilla han publicat una actualització dels seus conjunts de dades de Common Voice, que inclouen mostres de veu de 182 persones, un 25% més que fa 6 mesos. Les dades es publiquen com a domini públic (CC0). Els conjunts proposats es poden utilitzar en sistemes d'aprenentatge automàtic per construir models de síntesi i reconeixement de veu.

En comparació amb l'actualització anterior, la mida del material de parla de la col·lecció ha augmentat de 9 a 13.9 mil hores de parla. El nombre d'idiomes admesos ha augmentat de 60 a 76, incloent-hi per primera vegada el suport per a les llengües bielorússia, kazakh, uzbek, búlgar, armeni, azerbaidjan i bashkir. El conjunt per a la llengua russa cobreix 2136 participants i 173 hores de material de conferència (hi va haver 1412 participants i 111 hores), i per a la llengua ucraïnesa - 615 participants i 66 hores (hi va haver 459 participants i 30 hores).

Més de 75 mil persones van participar en l'elaboració de materials en anglès, dictant 2637 hores de discurs confirmat (hi va haver 66 mil participants i 1686 hores). Curiosament, l'idioma en segon lloc pel que fa a la quantitat de dades acumulades és Rwanda, per al qual s'han recollit 2260 hores. El segueixen l'alemany (1040), el català (920) i l'esperanto (840). Entre els que augmenten més dinàmicament la mida de les dades de veu es troben la llengua tailandesa (augment de 20 vegades a la base, de 12 a 250 hores), Luganda (de 8 a 80 hores), l'esperanto (de 100 a 840 hores) i el tàmil ( de 24 a 220 hores). hores).

Com a part de la seva participació en el projecte Common Voice, NVIDIA va preparar models preparats per a sistemes d'aprenentatge automàtic (admès per PyTorch) basats en les dades recollides. Els models es distribueixen com a part del conjunt d'eines gratuït i obert de NVIDIA NeMo, que, per exemple, ja s'utilitza als serveis de veu automatitzats de MTS i Sberbank. Els models estan pensats per utilitzar-los en sistemes de reconeixement de veu, síntesi de parla i processament del llenguatge natural, i poden ser útils per als investigadors que construeixen sistemes de diàleg activats per veu, plataformes de transcripció i centres de trucades automatitzats. A diferència dels projectes disponibles anteriorment, els models publicats no es limiten al reconeixement de la llengua anglesa i cobreixen una varietat d'idiomes, accents i formes de parla.

Recordem que el projecte Common Voice té com a objectiu organitzar un treball conjunt per acumular una base de dades de patrons de veu que tingui en compte la diversitat de veus i estils de parla. Els usuaris estan convidats a frases de veu que es mostren a la pantalla o avaluar la qualitat de les dades afegides per altres usuaris. La base de dades acumulada amb registres de diverses pronunciacions de frases típiques de la parla humana es pot utilitzar sense restriccions en sistemes d'aprenentatge automàtic i en projectes de recerca.

Segons l'autor de la biblioteca de reconeixement continu de veu Vosk, els desavantatges del conjunt de veu comuna són l'unilateralitat del material de veu (el predomini de gent masculina de 20 a 30 anys i la manca de material amb veus de dones). , infants i gent gran), la manca de variabilitat en el diccionari (repetició de les mateixes frases) i la distribució d'enregistraments en format MP3 distorsionador.

Font: opennet.ru

Afegeix comentari