Google ngeculake codec audio sumber terbuka Lyra V2

Google wis ngenalake codec audio Lyra V2, sing nggunakake teknik pembelajaran mesin kanggo entuk kualitas swara maksimal liwat saluran komunikasi sing alon banget. Versi anyar kasebut nduweni transisi menyang arsitektur jaringan saraf anyar, dhukungan kanggo platform tambahan, kapabilitas kontrol bitrate sing ditambahi, kinerja sing luwih apik lan kualitas audio sing luwih dhuwur. Implementasi kode referensi ditulis ing C++ lan disebarake miturut lisensi Apache 2.0.

Ing babagan kualitas data swara sing dikirim kanthi kecepatan rendah, Lyra luwih unggul tinimbang codec tradisional sing nggunakake metode pangolahan sinyal digital. Kanggo entuk transmisi swara sing berkualitas tinggi ing kahanan informasi sing ditularake kanthi winates, saliyane metode kompresi audio lan konversi sinyal konvensional, Lyra nggunakake model wicara adhedhasar sistem pembelajaran mesin, sing ngidini sampeyan nggawe maneh informasi sing ilang adhedhasar ciri khas wicara.

Codec kalebu encoder lan decoder. Algoritma encoder diwiwiti kanggo ngekstrak paramèter data swara saben 20 milidetik, ngompres lan ngirim menyang panampa liwat jaringan kanthi bitrate saka 3.2kbps dadi 9.2kbps. Ing mburi panrima, dekoder nggunakake model generatif kanggo mbangun maneh sinyal wicara asli adhedhasar paramèter audio sing dikirim, sing kalebu spektrogram kapur logaritma sing nganggep karakteristik energi wicara ing sawetara frekuensi sing beda-beda lan disiapake kanthi nimbang model persepsi pendengaran manungsa.

Lyra V2 nggunakake model generatif anyar adhedhasar jaringan syaraf konvolusional SoundStream, sing nduweni syarat komputasi sing sithik, ngidini dekoding wektu nyata sanajan ing sistem kurang daya. Model sing digunakake kanggo ngasilake swara dilatih nggunakake sawetara ewu jam rekaman swara ing luwih saka 90 basa. TensorFlow Lite digunakake kanggo nglakokake model kasebut. Kinerja implementasi sing diusulake cukup kanggo enkoding wicara lan dekoding ing smartphone kanthi rega murah.

Saliyane nggunakake model generatif sing beda-beda, versi anyar uga misuwur amarga kalebu ing arsitektur codec pranala karo RVQ (Residual Vector Quantizer) quantizer, sing dieksekusi ing sisih pangirim sadurunge ngirim data, lan ing sisih panrima. sawise nampa data. Quantizer ngowahi paramèter sing diprodhuksi codec dadi set paket, ngodhe informasi sing ana hubungane karo bitrate sing dipilih. Kanggo nyedhiyakake tingkat kualitas sing beda-beda, kuantizer diwenehake kanggo telung bitrate (3.2 kps, 6 kbps lan 9.2 kbps), sing luwih dhuwur bitrate, kualitas sing luwih apik, nanging syarat bandwidth sing luwih dhuwur.

Google ngeculake codec audio sumber terbuka Lyra V2

Arsitektur anyar wis nyuda wektu tundha transmisi sinyal saka 100 dadi 20 milidetik. Kanggo mbandhingake, codec Opus kanggo WebRTC nuduhake latensi 26.5ms, 46.5ms lan 66.5ms ing bitrate sing diuji. Kinerja encoder lan decoder uga tambah akeh - nganti 5 kaping luwih cepet dibandhingake karo versi sadurunge. Contone, ing smartphone Pixel 6 Pro, codec anyar ngode lan decode sampel 20-ms ing 0.57 ms, yaiku 35 kaping luwih cepet tinimbang sing dibutuhake kanggo transmisi wektu nyata.

Saliyane kinerja, uga bisa nambah kualitas pemugaran swara - miturut skala MUSHRA, kualitas wicara ing bitrate 3.2 kbps, 6 kbps lan 9.2 kbps nalika nggunakake codec Lyra V2 cocog karo bitrate 10 kbps, 13 kbps lan 14 kbps nalika nggunakake codec Opus.

Source: opennet.ru

Add a comment