Mozilla Common Voice 9.0 Aggiornamento vocale

Mozilla ha rilasciato un aggiornamento ai suoi set di dati Common Voice, che includono campioni di pronuncia di quasi 200 persone. I dati sono pubblicati come dominio pubblico (CC0). I set proposti possono essere utilizzati nei sistemi di apprendimento automatico per costruire modelli di riconoscimento e sintesi vocale.

Rispetto all'aggiornamento precedente, il volume del materiale vocale nella raccolta è aumentato del 10%, da 18.2 a 20.2 mila ore di discorso. Il numero di lingue supportate è aumentato da 87 a 93. Per 27 lingue sono state accumulate più di 100 ore di dati vocali e per 9 - più di 500 ore di dati vocali. Per 9 lingue è stato inoltre possibile raggiungere una quota di parlato femminile pari ad almeno il 45%.

Alla preparazione dei materiali in lingua inglese hanno preso parte più di 81mila persone, dettando 2953 ore di intervento (sono stati 79mila i partecipanti e 2886 ore). Il set per la lingua bielorussa copre 6326 partecipanti e 1054 ore di materiale vocale (c'erano 6160 partecipanti e 987 ore), russo - 2585 partecipanti e 201 ore (c'erano 2452 partecipanti e 193 ore), uzbeko - 1503 partecipanti e 231 ore ( c'erano 1355 partecipanti e 227 ore), lingua ucraina - 696 partecipanti e 79 ore (c'erano 684 partecipanti e 76 ore).

Il progetto Common Voice mira a organizzare un lavoro congiunto per accumulare un database di modelli vocali che tenga conto della diversità delle voci e degli stili linguistici. Gli utenti sono invitati a pronunciare le frasi visualizzate sullo schermo o a valutare la qualità dei dati aggiunti da altri utenti. Il database accumulato con registrazioni di varie pronunce di frasi tipiche del linguaggio umano può essere utilizzato senza restrizioni nei sistemi di apprendimento automatico e nei progetti di ricerca.

Fonte: opennet.ru

Aggiungi un commento