Projekt OpenAI, który rozwija publicznie dostępne projekty w dziedzinie sztucznej inteligencji, opublikował opracowania związane z systemem rozpoznawania mowy Whisper. Twierdzi się, że w przypadku mowy w języku angielskim system zapewnia poziomy niezawodności i dokładności automatycznego rozpoznawania zbliżone do rozpoznawania ludzkiego. Kod implementacji referencyjnej opartej na frameworku PyTorch oraz zestaw już wyszkolonych modeli gotowych do użycia są otwarte. Kod jest otwarty na licencji MIT.
Model został wytrenowany przy użyciu 680 1 godzin danych dotyczących mowy zebranych z kilku zbiorów obejmujących różne języki i obszary tematyczne. Około 3/XNUMX danych dotyczących mowy użytych w szkoleniu pochodzi z języków innych niż angielski. Proponowany system prawidłowo radzi sobie z sytuacjami takimi jak wymowa akcentowana, obecność szumu tła i używanie żargonu technicznego. Oprócz transkrypcji mowy na tekst, system może również tłumaczyć mowę z dowolnego języka na angielski i wykrywać występowanie mowy w strumieniu audio.
Modele są tworzone w dwóch reprezentacjach: modelu dla języka angielskiego i modelu wielojęzycznym, który obsługuje język rosyjski, ukraiński i białoruski. Z kolei każda reprezentacja jest podzielona na 5 wariantów, które różnią się rozmiarem i liczbą parametrów objętych modelem. Im większy rozmiar, tym większa dokładność i jakość rozpoznawania, ale także wyższe wymagania dotyczące rozmiaru pamięci wideo GPU i niższa wydajność. Na przykład minimalny wariant obejmuje 39 milionów parametrów i wymaga 1 GB pamięci wideo, a maksymalny obejmuje 1550 milionów parametrów i wymaga 10 GB pamięci wideo. Minimalny wariant jest 32 razy szybszy od maksymalnego.

System wykorzystuje architekturę sieci neuronowej Transformer, która obejmuje interakcyjny koder i dekoder. Dźwięk jest dzielony na 30-sekundowe fragmenty, które są konwertowane na spektrogram log-Mel i przekazywane do kodera. Dane wyjściowe kodera są wysyłane do dekodera, który przewiduje reprezentację tekstu zmieszaną ze specjalnymi tokenami, które umożliwiają jeden wspólny model rozwiązywania takich problemów, jak wykrywanie języka, uwzględnianie chronologii wymowy fraz, transkrypcja mowy w różnych językach i tłumaczenie na język angielski.
Źródło: opennet.ru
