Google verëffentlecht Lyra V2 Open Source Audio Codec

Google huet den Lyra V2 Audio Codec agefouert, deen Maschinnléiere Technike benotzt fir maximal Stëmmqualitéit iwwer ganz lues Kommunikatiounskanäl z'erreechen. Déi nei Versioun weist en Iwwergang zu enger neier neuraler Netzwierkarchitektur, Ënnerstëtzung fir zousätzlech Plattformen, erweidert Bitrate Kontrollfäegkeeten, verbessert Leeschtung a méi héich Audioqualitéit. D'Referenzcode Implementatioun ass an C++ geschriwwen a verdeelt ënner der Apache 2.0 Lizenz.

Wat d'Qualitéit vun iwwerdroe Stëmmdaten bei niddrege Geschwindegkeet ugeet, ass Lyra wesentlech besser wéi traditionell Codecs déi digital Signalveraarbechtungsmethoden benotzen. Fir héichqualitativ Stëmmiwwerdroung a Bedéngungen vun enger limitéierter Quantitéit vun iwwerdroenen Informatioun z'erreechen, zousätzlech zu konventionelle Methoden fir Audiokompressioun a Signalkonversioun, benotzt Lyra e Riedmodell baséiert op engem Maschinnléieresystem, deen Iech erlaabt déi fehlend Informatioun op Basis vun typesch Ried Charakteristiken.

De Codec enthält en Encoder an en Decoder. Den Algorithmus vum Encoder geet erof fir Stëmmdatenparameter all 20 Millisekonnen ze extrahieren, se ze kompriméieren an ze iwwerdroen un den Empfänger iwwer e Netzwierk mat enger Bitrate vun 3.2kbps bis 9.2kbps. Um Empfänger Enn benotzt den Decoder e generativen Modell fir dat ursprénglecht Riedssignal op Basis vun den iwwerdroenen Audioparameter ze rekonstruéieren, déi logarithmesch Kalkspektrogramme enthalen, déi d'Energiecharakteristike vun der Ried a verschiddene Frequenzbereich berücksichtegen a virbereet ginn ënner Berücksichtegung vu Modeller vun mënschlecht Gehörperceptioun.

Lyra V2 benotzt en neie generativen Modell baséiert op dem SoundStream konvolutionalen neuralen Netzwierk, deen niddereg computational Ufuerderunge huet, wat Echtzäit Dekodéierung och op Low-Power Systemer erlaabt. De Modell benotzt fir den Toun ze generéieren gouf mat e puer dausend Stonne Stëmmopnamen a méi wéi 90 Sproochen trainéiert. TensorFlow Lite gëtt benotzt fir de Modell auszeféieren. D'Performance vun der proposéierter Implementatioun ass genuch fir Riedkodéierung an Dekodéierung op Smartphones am ënneschten Präisbereich.

Zousätzlech fir en anere generative Modell ze benotzen, ass déi nei Versioun och bemierkenswäert fir d'Inklusioun an der Codec-Architektur vu Linken mam RVQ (Residual Vector Quantizer) Quantizer, deen op der Säit vum Sender ausgeführt gëtt ier Dir Daten iwwerdroe gëtt, an op der Säit vum Empfänger. no Donnéeë kréien. De Quantizer konvertéiert d'Parameteren, déi vum Codec produzéiert ginn, a Sets vu Paketen, kodéiert Informatioun a Relatioun mat der gewielter Bitrate. Fir verschidde Qualitéitsniveauen ze bidden, gi Quantiséierer fir dräi Bitrate (3.2 kps, 6 kbps an 9.2 kbps) zur Verfügung gestallt, wat méi héich ass de Bitrate, wat besser d'Qualitéit, awer wat méi héich d'Bandbreedungsfuerderunge sinn.

Google verëffentlecht Lyra V2 Open Source Audio Codec

Déi nei Architektur huet d'Signaliwwerdroungsverzögerungen vun 100 op 20 Millisekonnen reduzéiert. Zum Verglach huet den Opus Codec fir WebRTC Latenzen vun 26.5ms, 46.5ms an 66.5ms bei de geteste Bitrates bewisen. D'Performance vum Encoder an Decoder ass och wesentlech eropgaang - bis zu 5 Mol méi séier am Verglach mat der viregter Versioun. Zum Beispill, um Pixel 6 Pro Smartphone, codéiert an decodéiert den neie Codec eng 20 ms Probe an 0.57 ms, wat 35 Mol méi séier ass wéi néideg fir Echtzäit Iwwerdroung.

Zousätzlech zu der Leeschtung war et och méiglech d'Qualitéit vun der Toun Restauratioun ze verbesseren - laut der MUSHRA Skala, Sproochqualitéit bei Bitrates vun 3.2 kbps, 6 kbps an 9.2 kbps wann Dir de Lyra V2 Codec benotzt entsprécht Bitrate vun 10 kbps, 13 kbps an 14 kbps wann Dir den Opus Codec benotzt.

Source: opennet.ru

Setzt e Commentaire