Otvoren je kod za sustav za prepoznavanje i prevođenje govora Whisper

Projekt OpenAI, koji razvija javne projekte u području umjetne inteligencije, objavio je razvoje vezane uz sustav za prepoznavanje govora Whisper. Tvrdi se da za govor na engleskom sustav osigurava razine pouzdanosti i točnosti automatskog prepoznavanja bliske ljudskom prepoznavanju. Otvoren je kod za referentnu implementaciju temeljen na PyTorch frameworku i set već obučenih modela, spremnih za korištenje. Kod je otvoren pod MIT licencom.

Za obuku modela korišteno je 680 tisuća sati govornih podataka prikupljenih iz nekoliko zbirki koje pokrivaju različite jezike i tematska područja. Oko 1/3 govornih podataka uključenih u obuku je na jezicima koji nisu engleski. Predloženi sustav ispravno rješava situacije kao što su naglašeni izgovor, pozadinska buka i upotreba tehničkog žargona. Osim transkripcije govora u tekst, sustav također može prevesti govor s bilo kojeg jezika na engleski i detektirati pojavu govora u audio streamu.

Modeli su oblikovani u dva prikaza: model za engleski jezik i višejezični model, koji također podržava ruski, ukrajinski i bjeloruski jezik. Zauzvrat, svaki prikaz podijeljen je u 5 opcija koje se razlikuju po veličini i broju parametara obuhvaćenih modelom. Što je veća veličina, veća je točnost i kvaliteta prepoznavanja, ali i veći zahtjevi za veličinom GPU video memorije i niža izvedba. Na primjer, minimalna opcija uključuje 39 milijuna parametara i zahtijeva 1 GB video memorije, a maksimalna uključuje 1550 milijuna parametara i zahtijeva 10 GB video memorije. Minimalna opcija je 32 puta brža od maksimalne.

Otvoren je kod za sustav za prepoznavanje i prevođenje govora Whisper

Sustav koristi arhitekturu neuronske mreže Transformer, koja uključuje koder i dekoder koji međusobno djeluju. Zvuk se rastavlja na dijelove od 30 sekundi, koji se pretvaraju u log-Mel spektrogram i šalju koderu. Izlaz kodera šalje se dekoderu, koji predviđa prikaz teksta pomiješan s posebnim tokenima koji omogućuju, u jednom općem modelu, rješavanje problema kao što su detekcija jezika, uzimanje u obzir kronologije izgovora fraza, transkripcija govora u različite jezike, te prijevod na engleski jezik.

Izvor: opennet.ru

Dodajte komentar