Mozilla ha publicat una actualització dels seus conjunts de dades de Common Voice, que inclouen mostres de pronunciació de prop de 200 persones. Les dades es publiquen com a domini públic (CC0). Els conjunts proposats es poden utilitzar en sistemes d'aprenentatge automàtic per construir models de síntesi i reconeixement de veu. En comparació amb l'actualització anterior, el volum de material de parla de la col·lecció va augmentar un 30%: de 13.9 a 18.2 mil hores de parla. El nombre d'idiomes admesos ha augmentat de 67 a 87.
El conjunt per a la llengua russa cobreix 2452 participants i 193 hores de material de parla (va haver-hi 2136 participants i 173 hores), per a la llengua bielorussa - 6160 participants i 987 hores (hi va haver 3831 participants i 356 hores), per a la llengua ucraïnesa - 684 participants i 76 hores (hi va haver 615 participants i 66 hores). Més de 79 mil persones van participar en l'elaboració de materials en anglès, dictant 2886 hores de discurs confirmat (hi va haver 75 mil participants i 2637 hores).
Recordem que el projecte Common Voice té com a objectiu organitzar un treball conjunt per acumular una base de dades de patrons de veu que tingui en compte la diversitat de veus i estils de parla. Els usuaris estan convidats a frases de veu que es mostren a la pantalla o avaluar la qualitat de les dades afegides per altres usuaris. La base de dades acumulada amb registres de diverses pronunciacions de frases típiques de la parla humana es pot utilitzar sense restriccions en sistemes d'aprenentatge automàtic i en projectes de recerca. Segons l'autor de la biblioteca de reconeixement continu de veu Vosk, els desavantatges del conjunt de veu comuna són l'unilateralitat del material de veu (el predomini de gent masculina de 20 a 30 anys i la manca de material amb veus de dones). , infants i gent gran), la manca de variabilitat en el diccionari (repetició de les mateixes frases) i la distribució d'enregistraments en format MP3 distorsionador.
A més, podem destacar el llançament del conjunt d'eines NVIDIA NeMo 1.6, que proporciona mètodes d'aprenentatge automàtic per crear sistemes de reconeixement de veu, síntesi de veu i processament del llenguatge natural. NeMo inclou models preparats per a sistemes d'aprenentatge automàtic basats en el marc PyTorch, preparats per NVIDIA amb dades de veu de Common Voice i que cobreixen una varietat d'idiomes, accents i formes de parla. Els models poden ser útils per als investigadors que desenvolupin sistemes de diàleg basats en veu, plataformes de transcripció i centres de trucades automatitzats. Per exemple, NVIDIA NeMo s'utilitza en serveis de veu automatitzats de MTS i Sberbank. El codi NeMo està escrit en Python amb PyTorch i es distribueix sota la llicència Apache 2.0.
Font: opennet.ru
