Google izdaje Lyra V2 audio kodek otvorenog koda

Google je predstavio Lyra V2 audio kodek koji koristi tehnike strojnog učenja za postizanje maksimalne kvalitete glasa preko vrlo sporih komunikacijskih kanala. Nova verzija sadrži prijelaz na novu arhitekturu neuronske mreže, podršku za dodatne platforme, proširene mogućnosti kontrole brzine prijenosa, poboljšane performanse i veću kvalitetu zvuka. Implementacija referentnog koda napisana je u C++ i distribuirana pod licencom Apache 2.0.

Što se tiče kvalitete prijenosa glasovnih podataka pri malim brzinama, Lyra je znatno superiornija od tradicionalnih kodeka koji koriste metode digitalne obrade signala. Kako bi se postigla visoka kvaliteta prijenosa glasa u uvjetima ograničene količine odaslanih informacija, uz konvencionalne metode kompresije zvuka i konverzije signala, Lyra koristi govorni model temeljen na sustavu strojnog učenja, koji vam omogućuje ponovno stvaranje informacija koje nedostaju na temelju tipične karakteristike govora.

Kodek uključuje koder i dekoder. Algoritam enkodera svodi se na izdvajanje parametara glasovnih podataka svakih 20 milisekundi, njihovu kompresiju i prijenos do primatelja putem mreže s brzinom prijenosa od 3.2 kbps do 9.2 kbps. Na kraju prijemnika, dekoder koristi generativni model za rekonstrukciju izvornog govornog signala na temelju odaslanih audio parametara, koji uključuju logaritamske spektrograme kredom koji uzimaju u obzir energetske karakteristike govora u različitim frekvencijskim rasponima i pripremaju se uzimajući u obzir modele ljudska slušna percepcija.

Lyra V2 koristi novi generativni model temeljen na konvolucijskoj neuronskoj mreži SoundStream, koja ima niske računalne zahtjeve, što omogućuje dekodiranje u stvarnom vremenu čak i na sustavima male snage. Model korišten za generiranje zvuka je treniran pomoću nekoliko tisuća sati glasovnih snimaka na više od 90 jezika. TensorFlow Lite koristi se za izvođenje modela. Performanse predložene implementacije dovoljne su za kodiranje i dekodiranje govora na pametnim telefonima nižeg cjenovnog razreda.

Osim korištenja drugačijeg generativnog modela, nova verzija također je značajna po uključivanju u arhitekturu kodeka poveznica s kvantizatorom RVQ (Residual Vector Quantizer), koji se izvršava na strani pošiljatelja prije prijenosa podataka, a na strani primatelja nakon primljenih podataka. Kvantizator pretvara parametre koje proizvodi kodek u skupove paketa, kodirajući informacije u odnosu na odabranu brzinu prijenosa. Kako bi se pružile različite razine kvalitete, kvantizatori su dostupni za tri brzine prijenosa (3.2 kps, 6 kbps i 9.2 kbps), što je veća brzina prijenosa, to je bolja kvaliteta, ali su zahtjevi za propusnost veći.

Google izdaje Lyra V2 audio kodek otvorenog koda

Nova arhitektura smanjila je kašnjenje prijenosa signala sa 100 na 20 milisekundi. Za usporedbu, kodek Opus za WebRTC pokazao je latencije od 26.5 ms, 46.5 ms i 66.5 ms na testiranim brzinama prijenosa. Performanse kodera i dekodera su također značajno povećane - do 5 puta brže u usporedbi s prethodnom verzijom. Na primjer, na pametnom telefonu Pixel 6 Pro novi kodek kodira i dekodira uzorak od 20 ms za 0.57 ms, što je 35 puta brže nego što je potrebno za prijenos u stvarnom vremenu.

Osim performansi, bilo je moguće poboljšati i kvalitetu obnove zvuka - prema ljestvici MUSHRA, kvaliteta govora pri brzinama prijenosa od 3.2 kbps, 6 kbps i 9.2 kbps pri korištenju kodeka Lyra V2 odgovara brzinama prijenosa od 10 kbps, 13 kbps i 14 kbps kada koristite kodek Opus.

Izvor: opennet.ru

Dodajte komentar