Aktualizacja głosu Mozilla Common Voice 8.0

Mozilla zaprezentowała aktualizację zestawów danych głosowych Common Voice, które obejmują przykłady wymowy od około 200 0 osób. Dane udostępnione jako domena publiczna (CC30). Zaproponowane zestawy mogą być wykorzystane w systemach uczenia maszynowego do budowy modeli rozpoznawania i syntezy mowy. W porównaniu z ostatnią aktualizacją objętość materiałów mowy w zbiorze wzrosła o 13.9% - z 18.2 do 67 tys. godzin wypowiedzi. Liczba obsługiwanych języków wzrosła z 87 do XNUMX.

Zestaw dla języka rosyjskiego obejmuje 2452 uczestników i 193 godziny materiału mowy (było 2136 uczestników i 173 godziny), dla języka białoruskiego - 6160 uczestników i 987 godzin (było 3831 uczestników i 356 godzin), dla języka ukraińskiego - 684 uczestników i 76 godzin (było 615 uczestników i 66 godzin). W przygotowaniu materiałów w języku angielskim wzięło udział ponad 79 tys. osób, dyktując 2886 godzin potwierdzonych wystąpień (było 75 tys. uczestników i 2637 godz.).

Przypomnijmy, że projekt Common Voice ma na celu zorganizowanie wspólnej pracy w celu zgromadzenia bazy wzorców głosowych uwzględniającej całą różnorodność głosów i sposobów mówienia. Użytkownicy są proszeni o wypowiedzenie wyświetlanych na ekranie fraz lub ocenę jakości danych dodanych przez innych użytkowników. Zgromadzona baza danych z zapisami różnych wymowy typowych zwrotów mowy ludzkiej bez ograniczeń może być wykorzystywana w systemach uczenia maszynowego oraz w projektach badawczych. Według autora biblioteki ciągłego rozpoznawania mowy Vosk, wadą zestawu Common Voice jest jednostronność materiału głosowego (przewaga mężczyzn w wieku 20-30 lat i brak materiału z głosem kobiet, dzieci i osoby starsze), brak zmienności słownictwa (powtarzanie tych samych fraz) oraz dystrybucja nagrań w zniekształconym formacie MP3.

Dodatkowo możemy odnotować wydanie zestawu narzędzi NVIDIA NeMo 1.6, który udostępnia metody uczenia maszynowego do tworzenia systemów do rozpoznawania mowy, syntezy mowy i przetwarzania informacji w języku naturalnym. NeMo zawiera gotowe, wytrenowane modele uczenia maszynowego oparte na PyTorch, przygotowane przez firmę NVIDIA przy użyciu danych mowy Common Voice i obejmujące różne języki, akcenty i formy mowy. Modele mogą być przydatne dla badaczy budujących systemy dialogu głosowego, platformy transkrypcyjne i zautomatyzowane centra obsługi telefonicznej. Na przykład NVIDIA NeMo jest używana w zautomatyzowanych usługach głosowych MTS i Sberbank. Kod NeMo jest napisany w Pythonie przy użyciu PyTorch i dystrybuowany na licencji Apache 2.0.

Źródło: opennet.ru

Dodaj komentarz