Google slipper Lyra V2 åpen kildekode-lydkodek

Google har introdusert Lyra V2-lydkodeken, som bruker maskinlæringsteknikker for å oppnå maksimal stemmekvalitet over svært trege kommunikasjonskanaler. Den nye versjonen har en overgang til en ny nevrale nettverksarkitektur, støtte for flere plattformer, forbedret bitratekontroll, ytelsesforbedringer og høyere lydkvalitet. Referansekodeimplementeringen er skrevet i C++ og distribuert under Apache 2.0-lisensen.

Når det gjelder kvaliteten på taledata som overføres ved lave hastigheter, er Lyra betydelig overlegen tradisjonelle kodeker som bruker digitale signalbehandlingsmetoder. For å oppnå høykvalitets taleoverføring under forhold med en begrenset mengde overført informasjon, i tillegg til de vanlige metodene for lydkomprimering og signalkonvertering, bruker Lyra en talemodell basert på et maskinlæringssystem som lar deg gjenskape den manglende informasjonen basert på typiske taleegenskaper.

Kodeken inkluderer en koder og en dekoder. Algoritmen til koderen er å trekke ut stemmedataparametrene hvert 20. millisekund, komprimere dem og overføre dem til mottakeren over nettverket med en bithastighet fra 3.2 kbps til 9.2 kbps. På mottakersiden bruker dekoderen en generativ modell for å gjenskape det originale talesignalet basert på de overførte lydparametrene, som inkluderer logaritmiske krittspektrogrammer som tar hensyn til taleenergikarakteristikk i forskjellige frekvensområder og er forberedt med hensyn til menneskelig hørselsoppfatning modell.

Lyra V2 bruker en ny generativ modell basert på det konvolusjonelle nevrale nettverket SoundStream, som er preget av lave krav til dataressurser, som tillater sanntidsdekoding selv på systemer med lav effekt. Modellen som ble brukt til å generere lyden har blitt trent opp med flere tusen timer med stemmeopptak på over 90 språk. TensorFlow Lite brukes til å utføre modellen. Ytelsen til den foreslåtte implementeringen er tilstrekkelig for koding og dekoding av tale på smarttelefoner i lavere prisklasse.

I tillegg til å bruke en annen generativ modell, er den nye versjonen også kjent for inkluderingen av koblinger med RVQ (Residual Vector Quantizer) kvantizer i kodek-arkitekturen, som utføres på sendersiden før dataoverføring, og på mottakersiden etter datamottak. Kvantizeren konverterer parametrene gitt av kodeken til sett med pakker, og koder informasjonen i forhold til den valgte bithastigheten. For å sikre ulike kvalitetsnivåer er kvantiseringsapparater for tre bithastigheter (3.2 kps, 6 kbps og 9.2 kbps), jo høyere bithastighet, jo bedre kvalitet, men jo høyere båndbreddekrav.

Google slipper Lyra V2 åpen kildekode-lydkodek

Den nye arkitekturen har redusert signaloverføringsforsinkelser fra 100 til 20 millisekunder. Til sammenligning viste Opus-kodeken for WebRTC forsinkelser på 26.5 ms, 46.5 ms og 66.5 ms ved de testede bithastighetene. Ytelsen til koderen og dekoderen har også økt betydelig - sammenlignet med forrige versjon er det en akselerasjon på opptil 5 ganger. For eksempel, på Pixel 6 Pro-smarttelefonen, koder og dekoder den nye kodeken en 20-ms prøve på 0.57 ms, som er 35 ganger raskere enn nødvendig for sanntidsoverføring.

I tillegg til ytelse, klarte vi også å forbedre kvaliteten på lydgjenoppretting - i henhold til MUSHRA-skalaen tilsvarer kvaliteten på tale ved bithastigheter på 3.2 kbps, 6 kbps og 9.2 kbps ved bruk av Lyra V2-kodeken til bithastigheter på 10 kbps, 13 kbps og 14 kbps når du bruker Opus-kodeken.

Kilde: opennet.ru

Legg til en kommentar