Actualització de Mozilla Common Voice 9.0

Mozilla ha publicat una actualització dels seus conjunts de dades de Common Voice, que inclouen mostres de pronunciació de prop de 200 persones. Les dades es publiquen com a domini públic (CC0). Els conjunts proposats es poden utilitzar en sistemes d'aprenentatge automàtic per construir models de síntesi i reconeixement de veu.

En comparació amb l'actualització anterior, el volum de material de parla de la col·lecció va augmentar un 10%: de 18.2 a 20.2 mil hores de parla. El nombre d'idiomes admesos ha augmentat de 87 a 93. Per a 27 idiomes, s'han acumulat més de 100 hores de dades de parla i durant 9, més de 500 hores de dades de parla. Per a 9 idiomes també va ser possible aconseguir una quota de parla femenina d'almenys el 45%.

Més de 81 mil persones van participar en l'elaboració de materials en anglès, dictant 2953 hores de discurs (hi va haver 79 mil participants i 2886 hores). El conjunt per a la llengua bielorussa cobreix 6326 participants i 1054 hores de material de parla (hi va haver 6160 participants i 987 hores), rus - 2585 participants i 201 hores (hi va haver 2452 participants i 193 hores), uzbek - 1503 participants i 231 hores ( hi va haver 1355 participants i 227 hores), llengua ucraïnesa - 696 participants i 79 hores (hi va haver 684 participants i 76 hores).

El projecte Common Voice pretén organitzar un treball conjunt per acumular una base de dades de patrons de veu que tingui en compte la diversitat de veus i estils de parla. Els usuaris estan convidats a frases de veu que es mostren a la pantalla o avaluar la qualitat de les dades afegides per altres usuaris. La base de dades acumulada amb registres de diverses pronunciacions de frases típiques de la parla humana es pot utilitzar sense restriccions en sistemes d'aprenentatge automàtic i en projectes de recerca.

Font: opennet.ru

Afegeix comentari