Kod systemu rozpoznawania i tłumaczenia mowy Whisper został otwarty

Projekt OpenAI, który rozwija projekty publiczne z zakresu sztucznej inteligencji, opublikował opracowania związane z systemem rozpoznawania mowy Whisper. Twierdzi się, że w przypadku mowy w języku angielskim system zapewnia poziom niezawodności i dokładności automatycznego rozpoznawania zbliżony do rozpoznawalnego przez człowieka. Został otwarty kod referencyjnej implementacji opartej na frameworku PyTorch oraz zestaw już wyszkolonych modeli, gotowych do użycia. Kod jest otwarty na licencji MIT.

Do wytrenowania modelu wykorzystano 680 tysięcy godzin danych mowy, zebranych z kilku kolekcji obejmujących różne języki i obszary tematyczne. Około 1/3 danych mowy wykorzystywanych w szkoleniu jest w językach innych niż angielski. Proponowany system poprawnie radzi sobie z sytuacjami, takimi jak wymowa z akcentem, hałas w tle i użycie żargonu technicznego. Oprócz transkrypcji mowy na tekst, system może także tłumaczyć mowę z dowolnego języka na język angielski i wykrywać pojawienie się mowy w strumieniu audio.

Modele tworzone są w dwóch reprezentacjach: modelu dla języka angielskiego i modelu wielojęzycznym, który obsługuje także języki rosyjski, ukraiński i białoruski. Z kolei każda reprezentacja podzielona jest na 5 opcji, różniących się wielkością i liczbą parametrów objętych modelem. Im większy rozmiar, tym większa dokładność i jakość rozpoznawania, ale także wyższe wymagania dotyczące rozmiaru pamięci wideo GPU i niższa wydajność. Na przykład opcja minimalna obejmuje 39 milionów parametrów i wymaga 1 GB pamięci wideo, a maksymalna obejmuje 1550 milionów parametrów i wymaga 10 GB pamięci wideo. Opcja minimalna jest 32 razy szybsza niż maksymalna.

Kod systemu rozpoznawania i tłumaczenia mowy Whisper został otwarty

System wykorzystuje architekturę sieci neuronowej Transformer, w której koder i dekoder współdziałają ze sobą. Dźwięk jest dzielony na 30-sekundowe fragmenty, które są konwertowane na spektrogram log-Mel i wysyłane do kodera. Dane wyjściowe kodera przesyłane są do dekodera, który przewiduje reprezentację tekstu zmieszaną ze specjalnymi tokenami, które pozwalają w jednym ogólnym modelu rozwiązać problemy takie jak wykrywanie języka, uwzględnienie chronologii wymowy fraz, transkrypcja mowy w języku różnych językach i tłumaczenie na język angielski.

Źródło: opennet.ru

Dodaj komentarz