Google ka prezantuar kodekun audio Lyra V2, i cili përdor teknikat e mësimit të makinerive për të arritur cilësinë maksimale të zërit në kanale komunikimi shumë të ngadalta. Versioni i ri përmban një kalim në një arkitekturë të re të rrjetit nervor, mbështetje për platforma shtesë, aftësi të zgjeruara të kontrollit të shpejtësisë së biteve, performancë të përmirësuar dhe cilësi më të lartë audio. Zbatimi i kodit të referencës është shkruar në C++ dhe shpërndahet nën licencën Apache 2.0.
Për sa i përket cilësisë së të dhënave zanore të transmetuara me shpejtësi të ulët, Lyra është dukshëm më e lartë se kodekët tradicionalë që përdorin metoda të përpunimit të sinjalit dixhital. Për të arritur transmetimin e zërit me cilësi të lartë në kushtet e një sasie të kufizuar informacioni të transmetuar, përveç metodave konvencionale të kompresimit të audios dhe konvertimit të sinjalit, Lyra përdor një model të të folurit të bazuar në një sistem mësimi makinerie, i cili ju lejon të rikrijoni informacionin që mungon bazuar në karakteristikat tipike të të folurit.
Kodeku përfshin një kodues dhe një dekoder. Algoritmi i koduesit zbret në nxjerrjen e parametrave të të dhënave zanore çdo 20 milisekonda, duke i ngjeshur dhe transmetuar te marrësi përmes një rrjeti me një shpejtësi bit nga 3.2 kbps në 9.2 kbps. Në fund të marrësit, dekoderi përdor një model gjenerues për të rindërtuar sinjalin origjinal të të folurit bazuar në parametrat audio të transmetuar, të cilat përfshijnë spektrograme logaritmike të shkumësave që marrin parasysh karakteristikat energjetike të të folurit në intervale të ndryshme frekuencash dhe përgatiten duke marrë parasysh modelet e perceptimi dëgjimor i njeriut.
Lyra V2 përdor një model të ri gjenerues të bazuar në rrjetin nervor konvolucionist SoundStream, i cili ka kërkesa të ulëta llogaritëse, duke lejuar dekodimin në kohë reale edhe në sistemet me fuqi të ulët. Modeli i përdorur për të gjeneruar tingullin u trajnua duke përdorur disa mijëra orë regjistrime zanore në më shumë se 90 gjuhë. TensorFlow Lite përdoret për të ekzekutuar modelin. Performanca e zbatimit të propozuar është e mjaftueshme për kodimin dhe dekodimin e të folurit në telefonat inteligjentë në intervalin më të ulët të çmimeve.
Përveç përdorimit të një modeli gjenerues të ndryshëm, versioni i ri shquhet edhe për përfshirjen në arkitekturën e kodekut të lidhjeve me kuantizuesin RVQ (Residual Vector Quantizer), i cili ekzekutohet në anën e dërguesit përpara se të transmetojë të dhënat, dhe nga ana e marrësit. pas marrjes së të dhënave. Kuantizuesi i konverton parametrat e prodhuar nga kodec në grupe paketash, duke koduar informacionin në lidhje me shpejtësinë e zgjedhur të biteve. Për të ofruar nivele të ndryshme të cilësisë, kuantizuesit janë dhënë për tre shpejtësi bit (3.2 kps, 6 kbps dhe 9.2 kbps), sa më i lartë të jetë shpejtësia e biteve, aq më e mirë është cilësia, por sa më të larta të jenë kërkesat për gjerësi brezi.

Arkitektura e re ka reduktuar vonesat e transmetimit të sinjalit nga 100 në 20 milisekonda. Për krahasim, kodiku Opus për WebRTC demonstroi vonesa prej 26.5ms, 46.5ms dhe 66.5ms në shpejtësitë e testuara të biteve. Performanca e koduesit dhe dekoderit gjithashtu është rritur ndjeshëm - deri në 5 herë më shpejt në krahasim me versionin e mëparshëm. Për shembull, në telefonin inteligjent Pixel 6 Pro, kodiku i ri kodon dhe dekodon një mostër 20 ms në 0.57 ms, që është 35 herë më shpejt se sa kërkohet për transmetimin në kohë reale.
Përveç performancës, ishte gjithashtu e mundur të përmirësohej cilësia e restaurimit të zërit - sipas shkallës MUSHRA, cilësia e të folurit me shpejtësi bit prej 3.2 kbps, 6 kbps dhe 9.2 kbps kur përdorni kodekun Lyra V2 korrespondon me shpejtësinë e biteve prej 10 kbps, 13 kbps dhe 14 kbps kur përdorni kodek Opus.
Burimi: opennet.ru
