Actualizare Mozilla Common Voice 7.0

NVIDIA și Mozilla au lansat o actualizare a setului lor de date Common Voice, care include mostre de vorbire a 182 de persoane, în creștere cu 25% față de acum 6 luni. Datele sunt publicate ca domeniu public (CC0). Seturile propuse pot fi utilizate în sistemele de învățare automată pentru a construi modele de recunoaștere și sinteză a vorbirii.

În comparație cu actualizarea anterioară, dimensiunea materialului de vorbire din colecție a crescut de la 9 la 13.9 mii de ore de vorbire. Numărul de limbi acceptate a crescut de la 60 la 76, incluzând pentru prima dată suport pentru limbile belarusă, kazahă, uzbecă, bulgară, armeană, azeră și bașkir. Setul pentru limba rusă acoperă 2136 de participanți și 173 de ore de material de vorbire (au fost 1412 participanți și 111 ore), iar pentru limba ucraineană - 615 participanți și 66 de ore (au fost 459 de participanți și 30 de ore).

Peste 75 de mii de persoane au participat la pregătirea materialelor în limba engleză, dictand 2637 de ore de discurs confirmat (au fost 66 de mii de participanți și 1686 de ore). Interesant este că limba pe locul doi în ceea ce privește cantitatea de date acumulate este Rwanda, pentru care au fost colectate 2260 de ore. Urmează germană (1040), catalană (920) și Esperanto (840). Printre cele mai mari dimensiuni ale datelor vocale se numără limba thailandeză (creștere de 20 de ori în bază, de la 12 la 250 de ore), Luganda (de la 8 la 80 de ore), Esperanto (de la 100 la 840 de ore) și Tamil ( de la 24 la 220 ore).ore).

Ca parte a participării sale la proiectul Common Voice, NVIDIA a pregătit modele gata pregătite pentru sistemele de învățare automată (susținute de PyTorch) pe baza datelor colectate. Modelele sunt distribuite ca parte a setului de instrumente gratuit și deschis NVIDIA NeMo, care, de exemplu, este deja utilizat în serviciile automate de voce ale MTS și Sberbank. Modelele sunt destinate utilizării în recunoașterea vorbirii, sinteza vorbirii și sistemele de procesare a limbajului natural și pot fi utile pentru cercetătorii care construiesc sisteme de dialog activate prin voce, platforme de transcriere și centre de apel automate. Spre deosebire de proiectele disponibile anterior, modelele publicate nu se limitează la recunoașterea limbii engleze și acoperă o varietate de limbi, accente și forme de vorbire.

Să vă reamintim că proiectul Common Voice are ca scop organizarea de lucrări comune pentru acumularea unei baze de date de modele de voce care ține cont de diversitatea vocilor și stilurilor de vorbire. Utilizatorii sunt invitați să afișeze fraze vocale pe ecran sau să evalueze calitatea datelor adăugate de alți utilizatori. Baza de date acumulată cu înregistrări ale diferitelor pronunții ale frazelor tipice ale vorbirii umane poate fi utilizată fără restricții în sistemele de învățare automată și în proiecte de cercetare.

Potrivit autorului bibliotecii Vosk de recunoaștere continuă a vorbirii, dezavantajele setului Common Voice sunt caracterul unilateral al materialului vocal (predominanța bărbaților cu vârsta de 20-30 de ani și lipsa de material cu vocile femeilor). , copii și vârstnici), lipsa de variabilitate în dicționar (repetarea acelorași fraze) și distribuirea înregistrărilor în format MP3 deformator.

Sursa: opennet.ru

Adauga un comentariu