Google je objavio audio kodek Lyra za prijenos govora pri lošoj kvaliteti veze

Google je predstavio novi audio kodek, Lyra, optimiziran za postizanje maksimalne kvalitete glasa čak i pri korištenju vrlo sporih komunikacijskih kanala. Lyra implementacijski kod napisan je u C++ i otvoren pod licencom Apache 2.0, ali među ovisnostima potrebnim za rad postoji vlasnička biblioteka libsparse_inference.so s implementacijom jezgre za matematičke izračune. Napominje se da je vlasnička biblioteka privremena - u budućnosti Google obećava da će razviti otvorenu zamjenu i pružiti podršku za različite platforme.

Što se tiče kvalitete prijenosa glasovnih podataka pri malim brzinama, Lyra je znatno superiornija od tradicionalnih kodeka koji koriste metode digitalne obrade signala. Kako bi se postigla visoka kvaliteta prijenosa glasa u uvjetima ograničene količine odaslanih informacija, uz konvencionalne metode kompresije zvuka i konverzije signala, Lyra koristi govorni model temeljen na sustavu strojnog učenja, koji vam omogućuje ponovno stvaranje informacija koje nedostaju na temelju tipične karakteristike govora. Model korišten za generiranje zvuka je treniran pomoću nekoliko tisuća sati glasovnih snimaka na više od 70 jezika.

Google je objavio audio kodek Lyra za prijenos govora pri lošoj kvaliteti veze

Kodek uključuje koder i dekoder. Algoritam enkodera svodi se na izdvajanje parametara glasovnih podataka svakih 40 milisekundi, njihovo komprimiranje i slanje primatelju preko mreže. Za prijenos podataka dovoljan je komunikacijski kanal brzine 3 kilobita u sekundi. Ekstrahirani audio parametri uključuju logaritamske mel spektrograme koji uzimaju u obzir energetske karakteristike govora u različitim frekvencijskim rasponima i pripremljeni su uzimajući u obzir model ljudske slušne percepcije.

Google je objavio audio kodek Lyra za prijenos govora pri lošoj kvaliteti veze

Dekoder koristi generativni model koji na temelju odaslanih audio parametara rekreira govorni signal. Kako bi se smanjila složenost izračuna, korišten je lagani model temeljen na rekurentnoj neuronskoj mreži, koji je varijanta WaveRNN modela sinteze govora, koji koristi nižu frekvenciju uzorkovanja, ali generira nekoliko signala paralelno u različitim frekvencijskim rasponima. Rezultirajući signali se zatim superponiraju kako bi proizveli jedan izlazni signal koji odgovara navedenoj brzini uzorkovanja.

Specijalizirane procesorske upute dostupne u 64-bitnim ARM procesorima također se koriste za ubrzanje. Kao rezultat toga, unatoč korištenju strojnog učenja, kodek Lyra može se koristiti za kodiranje i dekodiranje govora u stvarnom vremenu na pametnim telefonima srednje klase, pokazujući latenciju prijenosa signala od 90 milisekundi.

Izvor: opennet.ru

Dodajte komentar