Actualizare Mozilla Common Voice 8.0

Mozilla a lansat o actualizare a setului de date Common Voice, care include mostre de pronunție de la aproape 200 de persoane. Datele sunt publicate ca domeniu public (CC0). Seturile propuse pot fi utilizate în sistemele de învățare automată pentru a construi modele de recunoaștere și sinteză a vorbirii. În comparație cu actualizarea anterioară, volumul materialului de vorbire din colecție a crescut cu 30% - de la 13.9 la 18.2 mii de ore de vorbire. Numărul de limbi acceptate a crescut de la 67 la 87.

Setul pentru limba rusă acoperă 2452 de participanți și 193 de ore de material de vorbire (au fost 2136 de participanți și 173 de ore), pentru limba belarusă - 6160 de participanți și 987 de ore (au fost 3831 de participanți și 356 de ore), pentru limba ucraineană - 684 de participanți și 76 de ore (au fost 615 participanți și 66 de ore). Peste 79 de mii de persoane au participat la pregătirea materialelor în limba engleză, dictand 2886 de ore de discurs confirmat (au fost 75 de mii de participanți și 2637 de ore).

Să vă reamintim că proiectul Common Voice are ca scop organizarea de lucrări comune pentru acumularea unei baze de date de modele de voce care ține cont de diversitatea vocilor și stilurilor de vorbire. Utilizatorii sunt invitați să afișeze fraze vocale pe ecran sau să evalueze calitatea datelor adăugate de alți utilizatori. Baza de date acumulată cu înregistrări ale diferitelor pronunții ale frazelor tipice ale vorbirii umane poate fi utilizată fără restricții în sistemele de învățare automată și în proiecte de cercetare. Potrivit autorului bibliotecii Vosk de recunoaștere continuă a vorbirii, dezavantajele setului Common Voice sunt caracterul unilateral al materialului vocal (predominanța bărbaților cu vârsta de 20-30 de ani și lipsa de material cu vocile femeilor). , copii și vârstnici), lipsa de variabilitate a dicționarului (repetarea acelorași fraze) și distribuirea înregistrărilor în format MP3 deformator.

În plus, putem observa lansarea setului de instrumente NVIDIA NeMo 1.6, care oferă metode de învățare automată pentru crearea sistemelor de recunoaștere a vorbirii, sinteza vorbirii și procesarea limbajului natural. NeMo include modele pregătite gata de utilizare pentru sistemele de învățare automată bazate pe framework-ul PyTorch, pregătite de NVIDIA folosind date de vorbire Common Voice și care acoperă o varietate de limbi, accente și forme de vorbire. Modelele pot fi utile pentru cercetătorii care dezvoltă sisteme de dialog vocal, platforme de transcriere și centre de apel automate. De exemplu, NVIDIA NeMo este utilizat în serviciile automate de voce ale MTS și Sberbank. Codul NeMo este scris în Python folosind PyTorch și distribuit sub licența Apache 2.0.

Sursa: opennet.ru

Adauga un comentariu