NVIDIA inverteix 1.5 milions de dòlars en el projecte Mozilla Common Voice

NVIDIA està invertint 1.5 milions de dòlars en el projecte Mozilla Common Voice. L'interès pels sistemes de reconeixement de veu neix de la predicció que durant els propers deu anys, la tecnologia de veu es convertirà en una de les principals maneres d'interaccionar amb les persones amb dispositius que van des d'ordinadors i telèfons fins a assistents digitals i quioscs.

El rendiment dels sistemes de veu depèn molt del volum i la varietat de dades de veu disponibles per a l'entrenament de models d'aprenentatge automàtic. La tecnologia de veu actual se centra principalment en el reconeixement de la llengua anglesa i no cobreix la gran varietat d'idiomes, accents i patrons de parla. La inversió ajudarà a accelerar el creixement de les dades de veu pública, involucrar més comunitats i voluntaris i ampliar el nombre de personal del projecte a temps complet.

Recordem que el projecte Common Voice té com a objectiu organitzar un treball conjunt per acumular una base de dades de patrons de veu que tingui en compte la diversitat de veus i estils de parla. Els usuaris estan convidats a frases de veu que es mostren a la pantalla o avaluar la qualitat de les dades afegides per altres usuaris. La base de dades acumulada amb registres de diverses pronunciacions de frases típiques de la parla humana es pot utilitzar sense restriccions en sistemes d'aprenentatge automàtic i en projectes de recerca.

Actualment, el conjunt de Common Voice inclou exemples de pronunciació de més de 164 persones. S'han acumulat unes 9 mil hores de dades de veu en 60 idiomes diferents. El conjunt per a la llengua russa cobreix 1412 participants i 111 hores de material de parla, i per a la llengua ucraïnesa: 459 participants i 30 hores. En comparació, més de 66 mil persones van participar en l'elaboració de materials en anglès, dictant 1686 hores de discurs verificat. Els conjunts proposats es poden utilitzar en sistemes d'aprenentatge automàtic per construir models de síntesi i reconeixement de veu. Les dades es publiquen com a domini públic (CC0).

Segons l'autor de la biblioteca de reconeixement continu de veu Vosk, els desavantatges del conjunt de veu comuna són l'unilateralitat del material de veu (el predomini de gent masculina de 20 a 30 anys i la manca de material amb veus de dones). , infants i gent gran), la manca de variabilitat en el diccionari (repetició de les mateixes frases) i la distribució d'enregistraments en format MP3 distorsionador.

Font: opennet.ru

Afegeix comentari