Mozilla Common Voice 8.0 Aggiornamento vocale

Mozilla ha rilasciato un aggiornamento ai suoi set di dati Common Voice, che includono campioni di pronuncia di quasi 200 persone. I dati sono pubblicati come dominio pubblico (CC0). I set proposti possono essere utilizzati nei sistemi di apprendimento automatico per costruire modelli di riconoscimento e sintesi vocale. Rispetto all'aggiornamento precedente, il volume del materiale vocale nella raccolta è aumentato del 30%, da 13.9 a 18.2 mila ore di discorso. Il numero di lingue supportate è aumentato da 67 a 87.

Il set per la lingua russa copre 2452 partecipanti e 193 ore di materiale vocale (c'erano 2136 partecipanti e 173 ore), per la lingua bielorussa - 6160 partecipanti e 987 ore (c'erano 3831 partecipanti e 356 ore), per la lingua ucraina - 684 partecipanti e 76 ore (c'erano 615 partecipanti e 66 ore). Alla preparazione dei materiali in lingua inglese hanno preso parte più di 79mila persone, dettando 2886 ore di discorso confermato (sono stati 75mila i partecipanti e 2637 ore).

Ricordiamo che il progetto Common Voice mira a organizzare un lavoro congiunto per accumulare un database di modelli vocali che tenga conto della diversità delle voci e degli stili linguistici. Gli utenti sono invitati a pronunciare le frasi visualizzate sullo schermo o a valutare la qualità dei dati aggiunti da altri utenti. Il database accumulato con registrazioni di varie pronunce di frasi tipiche del linguaggio umano può essere utilizzato senza restrizioni nei sistemi di apprendimento automatico e nei progetti di ricerca. Secondo l'autore della libreria di riconoscimento vocale continuo Vosk, gli svantaggi del set Common Voice sono l'unilateralità del materiale vocale (la predominanza degli uomini di età compresa tra 20 e 30 anni e la mancanza di materiale con le voci delle donne , bambini e anziani), l'assenza di variabilità nel dizionario (ripetizione delle stesse frasi) e la distribuzione delle registrazioni nel formato deformante MP3.

Inoltre, possiamo notare il rilascio del toolkit NVIDIA NeMo 1.6, che fornisce metodi di apprendimento automatico per la creazione di sistemi di riconoscimento vocale, sintesi vocale ed elaborazione del linguaggio naturale. NeMo include modelli addestrati pronti all'uso per sistemi di apprendimento automatico basati sul framework PyTorch, preparati da NVIDIA utilizzando i dati vocali di Common Voice e coprendo una varietà di lingue, accenti e forme di discorso. I modelli potrebbero essere utili per i ricercatori che sviluppano sistemi di dialogo basati sulla voce, piattaforme di trascrizione e call center automatizzati. Ad esempio, NVIDIA NeMo viene utilizzato nei servizi vocali automatizzati di MTS e Sberbank. Il codice NeMo è scritto in Python utilizzando PyTorch e distribuito sotto la licenza Apache 2.0.

Fonte: opennet.ru

Aggiungi un commento