Aktualizacja głosu Mozilla Common Voice 7.0

NVIDIA i Mozilla udostępniły aktualizację swoich zbiorów danych Common Voice, które obejmują próbki mowy 182 25 osób, co stanowi wzrost o 6% w porównaniu z 0 miesiącami temu. Dane są publikowane jako domena publiczna (CCXNUMX). Proponowane zestawy można wykorzystać w systemach uczenia maszynowego do budowy modeli rozpoznawania i syntezy mowy.

W porównaniu z poprzednią aktualizacją wielkość materiału mowy w zbiorze wzrosła z 9 do 13.9 tys. godzin przemówień. Liczba obsługiwanych języków wzrosła z 60 do 76, w tym po raz pierwszy obsługa języków białoruskiego, kazachskiego, uzbecki, bułgarskiego, ormiańskiego, azerbejdżańskiego i baszkirskiego. Zestaw dla języka rosyjskiego obejmuje 2136 uczestników i 173 godziny materiału przemówień (było 1412 uczestników i 111 godzin), a dla języka ukraińskiego - 615 uczestników i 66 godzin (było 459 uczestników i 30 godzin).

W przygotowaniu materiałów w języku angielskim wzięło udział ponad 75 tys. osób, dyktując 2637 godzin wystąpień potwierdzonych (uczestniczyło 66 tys. uczestników i 1686 godzin). Co ciekawe, na drugim miejscu pod względem ilości zgromadzonych danych znajduje się Rwanda, dla której zebrano 2260 godzin. Na kolejnych miejscach znajdują się język niemiecki (1040), kataloński (920) i esperanto (840). Do najdynamiczniej zwiększających się rozmiarów danych głosowych należą język tajski (20-krotny wzrost bazy z 12 do 250 godzin), luganda (z 8 do 80 godzin), esperanto (od 100 do 840 godzin) i tamilski (z 24 do 220 godzin). od XNUMX do XNUMX godzin).

W ramach udziału w projekcie Common Voice firma NVIDIA przygotowała na podstawie zebranych danych gotowe, wytrenowane modele dla systemów uczenia maszynowego (wspierane przez PyTorch). Modele są dystrybuowane w ramach bezpłatnego i otwartego zestawu narzędzi NVIDIA NeMo, który jest już używany na przykład w zautomatyzowanych usługach głosowych MTS i Sbierbanku. Modele są przeznaczone do stosowania w systemach rozpoznawania mowy, syntezie mowy i przetwarzaniu języka naturalnego i mogą być przydatne dla badaczy budujących systemy dialogu aktywowanego głosem, platformy transkrypcyjne i automatyczne centra telefoniczne. W przeciwieństwie do wcześniej dostępnych projektów, opublikowane modele nie ograniczają się do rozpoznawania języka angielskiego i obejmują różnorodne języki, akcenty i formy mowy.

Przypomnijmy, że projekt Common Voice ma na celu zorganizowanie wspólnej pracy nad zgromadzeniem bazy wzorców głosu, uwzględniającej różnorodność głosów i stylów mowy. Użytkownicy mogą wypowiadać frazy wyświetlane na ekranie lub oceniać jakość danych dodanych przez innych użytkowników. Zgromadzona baza danych zawierająca zapisy różnych wymów typowych zwrotów mowy ludzkiej może być bez ograniczeń wykorzystywana w systemach uczenia maszynowego oraz w projektach badawczych.

Według autora biblioteki ciągłego rozpoznawania mowy Vosk wadą zestawu Common Voice jest jednostronność materiału głosowego (przewaga mężczyzn w wieku 20-30 lat oraz brak materiału z głosami kobiet , dzieci i osoby starsze), brak zmienności w słowniku (powtarzanie tych samych zwrotów) oraz dystrybucja nagrań w zniekształcającym formacie MP3.

Źródło: opennet.ru

Dodaj komentarz