NVIDIA inwestuje 1.5 miliona dolarów w projekt Mozilla Common Voice

NVIDIA inwestuje 1.5 miliona dolarów w projekt Mozilla Common Voice. Zainteresowanie systemami rozpoznawania mowy wynika z przewidywań, że w ciągu najbliższych dziesięciu lat technologia głosowa stanie się jednym z głównych sposobów interakcji ludzi z urządzeniami, od komputerów i telefonów po asystentów cyfrowych i kioski.

Wydajność systemów głosowych w dużym stopniu zależy od ilości i różnorodności danych głosowych dostępnych na potrzeby modeli uczenia maszynowego. Dzisiejsza technologia głosowa koncentruje się przede wszystkim na rozpoznawaniu języka angielskiego i nie obejmuje szerokiej gamy języków, akcentów i wzorców mowy. Inwestycja pomoże przyspieszyć rozwój danych dotyczących głosu publicznego, zaangażować więcej społeczności i wolontariuszy oraz zwiększyć liczbę pełnoetatowych pracowników projektu.

Przypomnijmy, że projekt Common Voice ma na celu zorganizowanie wspólnej pracy nad zgromadzeniem bazy wzorców głosu, uwzględniającej różnorodność głosów i stylów mowy. Użytkownicy mogą wypowiadać frazy wyświetlane na ekranie lub oceniać jakość danych dodanych przez innych użytkowników. Zgromadzona baza danych zawierająca zapisy różnych wymów typowych zwrotów mowy ludzkiej może być bez ograniczeń wykorzystywana w systemach uczenia maszynowego oraz w projektach badawczych.

Zestaw Common Voice zawiera obecnie przykłady wymowy od ponad 164 9 osób. Zgromadzono około 60 tysięcy godzin danych głosowych w 1412 różnych językach. Zestaw dla języka rosyjskiego obejmuje 111 uczestników i 459 godzin materiału przemówieniowego, a dla języka ukraińskiego - 30 uczestników i 66 godzin. Dla porównania w przygotowaniu materiałów w języku angielskim wzięło udział ponad 1686 tysięcy osób, dyktując 0 godzin zweryfikowanych wystąpień. Proponowane zestawy można wykorzystać w systemach uczenia maszynowego do budowy modeli rozpoznawania i syntezy mowy. Dane są publikowane jako domena publiczna (CCXNUMX).

Według autora biblioteki ciągłego rozpoznawania mowy Vosk wadą zestawu Common Voice jest jednostronność materiału głosowego (przewaga mężczyzn w wieku 20-30 lat oraz brak materiału z głosami kobiet , dzieci i osoby starsze), brak zmienności w słowniku (powtarzanie tych samych zwrotów) oraz dystrybucja nagrań w zniekształcającym formacie MP3.

Źródło: opennet.ru

Dodaj komentarz