Google-k Lyra V2 kode irekiko audio-kodeka kaleratu du

Google-k Lyra V2 audio-kodeka aurkeztu du, ikaskuntza automatikoko teknikak erabiltzen dituena, ahots-kalitate handiena lortzeko komunikazio-kanal oso moteletan. Bertsio berriak sare neuronalaren arkitektura berri baterako trantsizioa, plataforma gehigarrietarako laguntza, bit-tasa kontrolatzeko gaitasunak, errendimendu hobetua eta audio kalitate handiagoa ditu. Erreferentzia kodearen ezarpena C++-n idatzita dago eta Apache 2.0 lizentziapean banatzen da.

Abiadura baxuan transmititutako ahots-datuen kalitateari dagokionez, Lyra seinale digitala prozesatzeko metodoak erabiltzen dituzten kodec tradizionalak baino nabarmen handiagoa da. Kalitate handiko ahots-transmisioa lortzeko, transmititutako informazio kopuru mugatuaren baldintzetan, audio-konpresioaren eta seinaleen bihurketa-metodo konbentzionalez gain, Lyrak-ek ikasketa automatikoko sistema batean oinarritutako hizketa-eredu bat erabiltzen du, falta den informazioa birsortzeko aukera ematen duena. hizkeraren ezaugarri tipikoak.

Kodekak kodetzailea eta deskodetzailea ditu. Kodetzailearen algoritmoa ahots-datuen parametroak 20 milisegundotik behin ateratzea, konprimitzea eta hartzaileari 3.2 kbps-tik 9.2 kbps bit-abiadura duen sare baten bidez igortzea da. Hartzailearen amaieran, deskodetzaileak sorkuntza-eredu bat erabiltzen du jatorrizko hizketa-seinalea berreraikitzeko transmititutako audio-parametroetan oinarrituta, hau da, klarion-espektrograma logaritmikoak barne hartzen dituzte, hizketaren energia-ezaugarriak maiztasun-tarte desberdinetan kontuan hartzen dituztenak eta ereduak kontuan hartuta prestatzen direnak. giza entzumen-pertzepzioa.

Lyra V2-k SoundStream sare neuronal konboluzionalean oinarritutako sorkuntza-eredu berri bat erabiltzen du, konputazio-eskakizun baxuak dituena, eta denbora errealean deskodetzea ahalbidetzen du potentzia baxuko sistemetan ere. Soinua sortzeko erabilitako eredua 90 hizkuntza baino gehiagotan hainbat mila ordutako ahots-grabaketak erabiliz trebatu zen. TensorFlow Lite erabiltzen da eredua exekutatzeko. Proposatutako inplementazioaren errendimendua nahikoa da hizkera kodetzeko eta deskodetzeko prezio baxuagoko telefonoetan.

Sorkuntza-eredu ezberdin bat erabiltzeaz gain, bertsio berria nabarmentzen da kodek arkitekturan RVQ (Residual Vector Quantizer) kuantizatzailearekin loturak txertatzeagatik, zeina igorlearen aldean datuak transmititu aurretik exekutatzen dena, eta hartzailearen aldean. datuak jaso ondoren. Kuantizatzaileak kodekak sortutako parametroak pakete multzotan bihurtzen ditu, aukeratutako bit-abiaduraren araberako informazioa kodetuz. Kalitate-maila desberdinak eskaintzeko, kuantizagailuak eskaintzen dira hiru bit-tasa (3.2 kps, 6 kbps eta 9.2 kbps), zenbat eta bit-tasa handiagoa izan, orduan eta kalitate hobea izango da, baina banda-zabalera eskakizun handiagoak.

Google-k Lyra V2 kode irekiko audio-kodeka kaleratu du

Arkitektura berriak seinalearen transmisioaren atzerapenak 100etik 20 milisegundora murriztu ditu. Konparazio baterako, WebRTC-rako Opus codec-ak 26.5 ms, 46.5 ms eta 66.5 ms-ko latentziak frogatu ditu probatutako bit-abiaduran. Kodetzailearen eta deskodetzailearen errendimendua ere nabarmen handitu da - aurreko bertsioarekin alderatuta 5 aldiz azkarrago arte. Adibidez, Pixel 6 Pro telefonoan, kodek berriak 20 ms-ko lagin bat kodetzen eta deskodetzen du 0.57 ms-tan, hau da, denbora errealeko transmisiorako behar baino 35 aldiz azkarrago.

Errendimenduaz gain, soinuaren berreskurapenaren kalitatea ere hobetu ahal izan da - MUSHRA eskalaren arabera, 3.2 kbps, 6 kbps eta 9.2 kbps-ko hizketaren kalitatea Lyra V2 kodeka erabiltzean 10 kbps-ko bit-abiadurei dagokie, 13. kbps eta 14 kbps Opus kodeka erabiltzean.

Iturria: opennet.ru

Gehitu iruzkin berria