NVIDIA investe 1.5 milioni di dollari nel progetto Mozilla Common Voice

NVIDIA sta investendo 1.5 milioni di dollari nel progetto Mozilla Common Voice. L’interesse per i sistemi di riconoscimento vocale nasce dalla previsione che nei prossimi dieci anni la tecnologia vocale diventerà uno dei principali modi in cui le persone interagiscono con dispositivi che vanno dai computer e telefoni agli assistenti digitali e ai chioschi.

Le prestazioni dei sistemi vocali dipendono fortemente dal volume e dalla varietà dei dati vocali disponibili per l'addestramento dei modelli di machine learning. La tecnologia vocale odierna si concentra principalmente sul riconoscimento della lingua inglese e non copre la vasta gamma di lingue, accenti e modelli vocali. L’investimento contribuirà ad accelerare la crescita dei dati vocali pubblici, a coinvolgere più comunità e volontari e ad espandere il numero del personale di progetto a tempo pieno.

Ricordiamo che il progetto Common Voice mira a organizzare un lavoro congiunto per accumulare un database di modelli vocali che tenga conto della diversità delle voci e degli stili linguistici. Gli utenti sono invitati a pronunciare le frasi visualizzate sullo schermo o a valutare la qualità dei dati aggiunti da altri utenti. Il database accumulato con registrazioni di varie pronunce di frasi tipiche del linguaggio umano può essere utilizzato senza restrizioni nei sistemi di apprendimento automatico e nei progetti di ricerca.

Il set Common Voice attualmente include esempi di pronuncia di oltre 164 persone. Sono state accumulate circa 9mila ore di dati vocali in 60 lingue diverse. Il set per la lingua russa copre 1412 partecipanti e 111 ore di materiale vocale, e per la lingua ucraina - 459 partecipanti e 30 ore. Per fare un confronto, alla preparazione dei materiali in inglese hanno preso parte più di 66mila persone, dettando 1686 ore di discorso verificato. I set proposti possono essere utilizzati nei sistemi di apprendimento automatico per costruire modelli di riconoscimento e sintesi vocale. I dati sono pubblicati come dominio pubblico (CC0).

Secondo l'autore della libreria di riconoscimento vocale continuo Vosk, gli svantaggi del set Common Voice sono l'unilateralità del materiale vocale (la predominanza degli uomini di età compresa tra 20 e 30 anni e la mancanza di materiale con le voci delle donne , bambini e anziani), la mancanza di variabilità del dizionario (ripetizione delle stesse frasi) e la distribuzione delle registrazioni nel formato deformante MP3.

Fonte: opennet.ru

Aggiungi un commento