Inilabas ng Google ang Lyra V2 na open source na audio codec

Ipinakilala ng Google ang Lyra V2 audio codec, na gumagamit ng mga diskarte sa machine learning para makamit ang pinakamataas na kalidad ng boses sa napakabagal na mga channel ng komunikasyon. Nagtatampok ang bagong bersyon ng paglipat sa isang bagong arkitektura ng neural network, suporta para sa mga karagdagang platform, pinalawak na mga kakayahan sa pagkontrol ng bitrate, pinahusay na pagganap at mas mataas na kalidad ng audio. Ang pagpapatupad ng reference code ay nakasulat sa C++ at ipinamahagi sa ilalim ng lisensya ng Apache 2.0.

Sa mga tuntunin ng kalidad ng ipinadalang data ng boses sa mababang bilis, ang Lyra ay higit na nakahihigit sa mga tradisyonal na codec na gumagamit ng mga digital signal processing method. Upang makamit ang mataas na kalidad na pagpapadala ng boses sa mga kondisyon ng limitadong dami ng ipinadalang impormasyon, bilang karagdagan sa mga kumbensyonal na pamamaraan ng audio compression at conversion ng signal, gumagamit si Lyra ng isang modelo ng pagsasalita batay sa isang machine learning system, na nagbibigay-daan sa iyong muling likhain ang nawawalang impormasyon batay sa tipikal na katangian ng pagsasalita.

Kasama sa codec ang isang encoder at isang decoder. Ang algorithm ng encoder ay bumababa sa pagkuha ng mga parameter ng data ng boses bawat 20 millisecond, pag-compress ng mga ito at pagpapadala sa mga ito sa tatanggap sa isang network na may bitrate mula 3.2kbps hanggang 9.2kbps. Sa dulo ng receiver, ang decoder ay gumagamit ng generative na modelo upang muling buuin ang orihinal na signal ng pagsasalita batay sa ipinadalang mga parameter ng audio, na kinabibilangan ng logarithmic chalk spectrograms na isinasaalang-alang ang mga katangian ng enerhiya ng pagsasalita sa iba't ibang mga saklaw ng dalas at inihanda na isinasaalang-alang ang mga modelo ng pandama ng pandinig ng tao.

Gumagamit ang Lyra V2 ng bagong generative na modelo batay sa SoundStream convolutional neural network, na may mababang computational na kinakailangan, na nagbibigay-daan sa real-time na pag-decode kahit sa mga low-power system. Ang modelong ginamit upang makabuo ng tunog ay sinanay gamit ang ilang libong oras ng pag-record ng boses sa higit sa 90 mga wika. Ginagamit ang TensorFlow Lite upang isagawa ang modelo. Ang pagganap ng iminungkahing pagpapatupad ay sapat para sa speech encoding at decoding sa mga smartphone sa mas mababang hanay ng presyo.

Bilang karagdagan sa paggamit ng ibang generative na modelo, ang bagong bersyon ay kapansin-pansin din para sa pagsasama sa codec architecture ng mga link na may RVQ (Residual Vector Quantizer) quantizer, na isinasagawa sa panig ng nagpadala bago magpadala ng data, at sa panig ng tatanggap. pagkatapos makatanggap ng data. Kino-convert ng quantizer ang mga parameter na ginawa ng codec sa mga hanay ng mga packet, na nag-encode ng impormasyon kaugnay ng napiling bitrate. Upang magbigay ng iba't ibang antas ng kalidad, ang mga quantizer ay ibinibigay para sa tatlong bitrate (3.2 kps, 6 kbps at 9.2 kbps), mas mataas ang bitrate, mas mahusay ang kalidad, ngunit mas mataas ang mga kinakailangan sa bandwidth.

Inilabas ng Google ang Lyra V2 na open source na audio codec

Binawasan ng bagong arkitektura ang mga pagkaantala sa paghahatid ng signal mula 100 hanggang 20 millisecond. Para sa paghahambing, ang Opus codec para sa WebRTC ay nagpakita ng mga latency na 26.5ms, 46.5ms at 66.5ms sa mga nasubok na bitrate. Ang pagganap ng encoder at decoder ay tumaas din nang malaki - hanggang 5 beses na mas mabilis kumpara sa nakaraang bersyon. Halimbawa, sa Pixel 6 Pro smartphone, ang bagong codec ay nag-e-encode at nagde-decode ng 20-ms sample sa 0.57 ms, na 35 beses na mas mabilis kaysa sa kinakailangan para sa real-time na transmission.

Bilang karagdagan sa pagganap, posible ring mapabuti ang kalidad ng pagpapanumbalik ng tunog - ayon sa sukat ng MUSHRA, ang kalidad ng pagsasalita sa mga bitrate na 3.2 kbps, 6 kbps at 9.2 kbps kapag ginagamit ang Lyra V2 codec ay tumutugma sa mga bitrate na 10 kbps, 13 kbps at 14 kbps kapag gumagamit ng Opus codec.

Pinagmulan: opennet.ru

Magdagdag ng komento