Otvoren kod sistema za prepoznavanje i prevođenje šapata

Projekat OpenAI, koji razvija javne projekte u oblasti veštačke inteligencije, objavio je razvoje u vezi sa sistemom za prepoznavanje govora Whisper. Tvrdi se da za govor na engleskom jeziku sistem obezbeđuje nivoe pouzdanosti i tačnosti automatskog prepoznavanja bliske ljudskom. Otvoren je kod za referentnu implementaciju baziran na PyTorch framework-u i skup već obučenih modela, spremnih za upotrebu. Kod je otvoren pod MIT licencom.

Za obuku modela korišteno je 680 hiljada sati govornih podataka, prikupljenih iz nekoliko kolekcija koje pokrivaju različite jezike i predmetne oblasti. Oko 1/3 govornih podataka uključenih u obuku je na jezicima koji nisu engleski. Predloženi sistem ispravno rješava situacije kao što su izgovor s akcentom, pozadinska buka i upotreba tehničkog žargona. Pored transkripcije govora u tekst, sistem takođe može prevesti govor sa bilo kog jezika na engleski i detektovati pojavu govora u audio streamu.

Modeli su formirani u dva prikaza: model za engleski jezik i višejezični model, koji takođe podržava ruski, ukrajinski i bjeloruski jezik. Zauzvrat, svaki prikaz je podijeljen u 5 opcija, koje se razlikuju po veličini i broju parametara obuhvaćenih modelom. Što je veća veličina, veća je točnost i kvalitet prepoznavanja, ali i veći zahtjevi za veličinom GPU video memorije i niže performanse. Na primjer, minimalna opcija uključuje 39 miliona parametara i zahtijeva 1 GB video memorije, a maksimalna uključuje 1550 miliona parametara i zahtijeva 10 GB video memorije. Minimalna opcija je 32 puta brža od maksimalne.

Otvoren kod sistema za prepoznavanje i prevođenje šapata

Sistem koristi arhitekturu neuronske mreže Transformer, koja uključuje enkoder i dekoder koji međusobno djeluju. Zvuk je razbijen na dijelove od 30 sekundi, koji se pretvaraju u log-Mel spektrogram i šalju u koder. Izlaz kodera se šalje dekoderu, koji predviđa tekstualnu reprezentaciju pomešanu sa posebnim tokenima koji omogućavaju, u jednom opštem modelu, rešavanje problema kao što su detekcija jezika, uzimanje u obzir hronologije izgovora fraza, transkripcija govora u različitim jezicima i prevodom na engleski.

izvor: opennet.ru

Dodajte komentar