Mozilla Common Voice 7.0 Aggiornamento vocale

NVIDIA e Mozilla hanno rilasciato un aggiornamento ai loro set di dati Common Voice, che includono 182 esempi di discorsi di persone, in aumento del 25% rispetto a 6 mesi fa. I dati sono pubblicati come dominio pubblico (CC0). I set proposti possono essere utilizzati nei sistemi di apprendimento automatico per costruire modelli di riconoscimento e sintesi vocale.

Rispetto all'aggiornamento precedente, la dimensione del materiale vocale nella raccolta è aumentata da 9 a 13.9 mila ore di discorso. Il numero di lingue supportate è aumentato da 60 a 76, incluso per la prima volta il supporto per le lingue bielorusso, kazako, uzbeko, bulgaro, armeno, azero e baschiro. Il set per la lingua russa copre 2136 partecipanti e 173 ore di materiale vocale (c'erano 1412 partecipanti e 111 ore), e per la lingua ucraina - 615 partecipanti e 66 ore (c'erano 459 partecipanti e 30 ore).

Alla preparazione dei materiali in lingua inglese hanno preso parte più di 75mila persone, dettando 2637 ore di discorso confermato (i partecipanti sono stati 66mila e 1686 ore). È interessante notare che la seconda lingua più grande in termini di dati accumulati è il Ruanda, per il quale sono state raccolte 2260 ore. Seguono il tedesco (1040), il catalano (920) e l'esperanto (840). Tra quelle che aumentano in modo più dinamico la dimensione dei dati vocali ci sono la lingua tailandese (aumento di 20 volte nella base, da 12 a 250 ore), Luganda (da 8 a 80 ore), Esperanto (da 100 a 840 ore) e Tamil ( dalle 24 alle 220 ore).

Nell'ambito della sua partecipazione al progetto Common Voice, NVIDIA ha preparato modelli addestrati già pronti per sistemi di apprendimento automatico (supportati da PyTorch) basati sui dati raccolti. I modelli sono distribuiti come parte del toolkit gratuito e aperto NVIDIA NeMo, che, ad esempio, è già utilizzato nei servizi vocali automatizzati di MTS e Sberbank. I modelli sono destinati all'uso nel riconoscimento vocale, nella sintesi vocale e nei sistemi di elaborazione del linguaggio naturale e possono essere utili per i ricercatori che costruiscono sistemi di dialogo ad attivazione vocale, piattaforme di trascrizione e call center automatizzati. A differenza dei progetti precedentemente disponibili, i modelli pubblicati non si limitano al riconoscimento della lingua inglese e coprono una varietà di lingue, accenti e forme di discorso.

Ricordiamo che il progetto Common Voice mira a organizzare un lavoro congiunto per accumulare un database di modelli vocali che tenga conto della diversità delle voci e degli stili linguistici. Gli utenti sono invitati a pronunciare le frasi visualizzate sullo schermo o a valutare la qualità dei dati aggiunti da altri utenti. Il database accumulato con registrazioni di varie pronunce di frasi tipiche del linguaggio umano può essere utilizzato senza restrizioni nei sistemi di apprendimento automatico e nei progetti di ricerca.

Secondo l'autore della libreria di riconoscimento vocale continuo Vosk, gli svantaggi del set Common Voice sono l'unilateralità del materiale vocale (la predominanza degli uomini di età compresa tra 20 e 30 anni e la mancanza di materiale con le voci delle donne , bambini e anziani), la mancanza di variabilità del dizionario (ripetizione delle stesse frasi) e la distribuzione delle registrazioni nel formato deformante MP3.

Fonte: opennet.ru

Aggiungi un commento