Google je objavio Lyra audio kodek za prijenos govora u lošem kvalitetu veze

Google je predstavio novi audio kodek, Lyra, optimiziran za postizanje maksimalnog kvaliteta glasa čak i kada se koriste vrlo spori komunikacijski kanali. Lyra implementacijski kod je napisan na C++ i otvoren pod licencom Apache 2.0, ali među ovisnostima potrebnim za rad postoji vlasnička biblioteka libsparse_inference.so sa implementacijom kernela za matematičke proračune. Napominje se da je vlasnička biblioteka privremena - u budućnosti Google obećava da će razviti otvorenu zamjenu i pružiti podršku za različite platforme.

U pogledu kvaliteta prenošenih glasovnih podataka pri malim brzinama, Lyra je značajno superiornija od tradicionalnih kodeka koji koriste metode digitalne obrade signala. Za postizanje visokog kvaliteta prijenosa glasa u uvjetima ograničene količine prenesenih informacija, pored konvencionalnih metoda audio kompresije i konverzije signala, Lyra koristi govorni model zasnovan na sistemu mašinskog učenja, koji vam omogućava da ponovo kreirate informacije koje nedostaju na osnovu tipične karakteristike govora. Model koji se koristi za generiranje zvuka je obučen korištenjem nekoliko hiljada sati glasovnih snimaka na više od 70 jezika.

Google je objavio Lyra audio kodek za prijenos govora u lošem kvalitetu veze

Kodek uključuje koder i dekoder. Algoritam enkodera se svodi na izdvajanje parametara govornih podataka svakih 40 milisekundi, njihovo kompresovanje i prenošenje primaocu preko mreže. Za prijenos podataka dovoljan je komunikacijski kanal brzine 3 kilobita u sekundi. Ekstrahovani audio parametri uključuju logaritamske mel spektrograme koji uzimaju u obzir energetske karakteristike govora u različitim frekventnim opsezima i pripremaju se uzimajući u obzir model ljudske slušne percepcije.

Google je objavio Lyra audio kodek za prijenos govora u lošem kvalitetu veze

Dekoder koristi generativni model koji, na osnovu prenetih audio parametara, rekreira govorni signal. Da bi se smanjila složenost proračuna, korišćen je laki model baziran na rekurentnoj neuronskoj mreži, koji je varijanta WaveRNN modela sinteze govora, koji koristi nižu frekvenciju uzorkovanja, ali generiše nekoliko signala paralelno u različitim frekventnim opsezima. Rezultirajući signali se zatim superponiraju kako bi se proizveo jedan izlazni signal koji odgovara specificiranoj stopi uzorkovanja.

Specijalizovane instrukcije za procesor dostupne u 64-bitnim ARM procesorima se takođe koriste za ubrzanje. Kao rezultat toga, uprkos korištenju mašinskog učenja, Lyra kodek se može koristiti za kodiranje i dekodiranje govora u realnom vremenu na pametnim telefonima srednje klase, pokazujući kašnjenje prijenosa signala od 90 milisekundi.

izvor: opennet.ru

Dodajte komentar