Gipatik sa Google ang Lyra audio codec alang sa pagpasa sa pagsulti sa dili maayo nga kalidad sa koneksyon

Gipaila sa Google ang usa ka bag-ong audio codec, si Lyra, nga gi-optimize aron makab-ot ang labing taas nga kalidad sa tingog bisan kung gigamit ang hinay kaayo nga mga channel sa komunikasyon. Ang code sa pagpatuman sa Lyra gisulat sa C ++ ug gibuksan ubos sa Apache 2.0 nga lisensya, apan lakip sa mga dependency nga gikinahanglan alang sa operasyon adunay usa ka proprietary library libsparse_inference.so uban sa usa ka kernel nga pagpatuman alang sa mathematical kalkulasyon. Namatikdan nga temporaryo ang proprietary library - sa umaabot ang Google nagsaad nga maghimo usa ka bukas nga kapuli ug maghatag suporta alang sa lainlaing mga platform.

Sa mga termino sa kalidad sa gipasa nga data sa tingog sa mubu nga tulin, ang Lyra labi ka labaw sa tradisyonal nga mga codec nga naggamit mga pamaagi sa pagproseso sa digital signal. Aron makab-ot ang taas nga kalidad nga pagpasa sa tingog sa mga kondisyon sa usa ka limitado nga gidaghanon sa gipasa nga impormasyon, dugang sa naandan nga mga pamaagi sa audio compression ug pagkakabig sa signal, si Lyra naggamit sa usa ka modelo sa pagsulti base sa usa ka sistema sa pagkat-on sa makina, nga nagtugot kanimo sa paghimo pag-usab sa nawala nga impormasyon base sa tipikal nga mga kinaiya sa pagsulti. Ang modelo nga gigamit sa pagmugna sa tingog gibansay gamit ang pipila ka libo ka oras nga voice recording sa kapin sa 70 ka pinulongan.

Gipatik sa Google ang Lyra audio codec alang sa pagpasa sa pagsulti sa dili maayo nga kalidad sa koneksyon

Ang codec naglakip sa usa ka encoder ug usa ka decoder. Ang algorithm sa encoder nagsugod sa pagkuha sa mga parameter sa voice data matag 40 milliseconds, pag-compress niini, ug pagpasa niini ngadto sa nakadawat pinaagi sa network. Ang usa ka channel sa komunikasyon nga adunay gikusgon nga 3 kilobits kada segundo igo na alang sa pagpadala sa datos. Ang gikuha nga mga parameter sa audio naglakip sa logarithmic mel spectrograms nga gikonsiderar ang mga kinaiya sa enerhiya sa pagsulti sa lainlaing mga sakup sa frequency ug giandam nga gikonsiderar ang modelo sa pandungog sa pandungog sa tawo.

Gipatik sa Google ang Lyra audio codec alang sa pagpasa sa pagsulti sa dili maayo nga kalidad sa koneksyon

Ang decoder naggamit sa usa ka generative nga modelo nga, base sa gipasa nga mga parameter sa audio, nagmugna pag-usab sa signal sa pagsulti. Aron makunhuran ang pagkakomplikado sa mga kalkulasyon, usa ka lightweight nga modelo nga gibase sa usa ka balik-balik nga neural network ang gigamit, nga usa ka variant sa WaveRNN speech synthesis model, nga naggamit sa usa ka ubos nga sampling frequency, apan nagmugna og daghang mga signal nga managsama sa lain-laing mga frequency range. Ang resulta nga mga signal unya gipatong aron makagama og usa ka output signal nga katumbas sa gitakda nga sampling rate.

Ang mga espesyal nga instruksyon sa processor nga anaa sa 64-bit nga ARM processor gigamit usab alang sa pagpadali. Ingon usa ka sangputanan, bisan pa sa paggamit sa pagkat-on sa makina, ang Lyra codec mahimong magamit alang sa real-time nga pag-encode sa pagsulti ug pag-decode sa mid-range nga mga smartphone, nga nagpakita sa latency sa transmission sa signal nga 90 milliseconds.

Source: opennet.ru

Idugang sa usa ka comment