A Google kiadja a Lyra V2 nyílt forráskódú audiokodeket

A Google bemutatta a Lyra V2 audiokodeket, amely gépi tanulási technikákat használ a maximális hangminőség eléréséhez nagyon lassú kommunikációs csatornákon. Az új verzió áttérés az új neurális hálózati architektúrára, további platformok támogatása, kibővített bitsebesség-vezérlési képességek, jobb teljesítmény és jobb hangminőség. A referenciakód implementációja C++ nyelven íródott, és az Apache 2.0 licenc alatt terjeszthető.

Az alacsony sebességen továbbított hangadatok minőségét tekintve a Lyra jelentősen felülmúlja a hagyományos, digitális jelfeldolgozási módszereket alkalmazó kodekeket. A jó minőségű hangátvitel elérése érdekében korlátozott mennyiségű továbbított információ mellett a hagyományos hangtömörítési és jelátalakítási módszerek mellett a Lyra gépi tanulási rendszeren alapuló beszédmodellt használ, amely lehetővé teszi a hiányzó információk újbóli létrehozását. tipikus beszédjellemzők.

A kodek tartalmaz egy kódolót és egy dekódert. A kódoló algoritmusa a hangadatok paramétereinek 20 ezredmásodpercenkénti kinyerésére, tömörítésére és 3.2–9.2 kbps bitsebességű hálózaton keresztül történő továbbítására irányul. A vevő oldalon a dekóder egy generatív modell segítségével rekonstruálja az eredeti beszédjelet a továbbított hangparaméterek alapján, amelyek logaritmikus kréta spektrogramokat tartalmaznak, amelyek figyelembe veszik a beszéd energiajellemzőit különböző frekvenciatartományokban, és a beszédmodellek figyelembevételével készülnek. emberi hallásérzékelés.

A Lyra V2 egy új generatív modellt használ, amely a SoundStream konvolúciós neurális hálózaton alapul, amely alacsony számítási követelményeket támaszt, és lehetővé teszi a valós idejű dekódolást alacsony fogyasztású rendszereken is. A hang generálására használt modellt több ezer órányi hangfelvétel segítségével képezték ki több mint 90 nyelven. A TensorFlow Lite a modell végrehajtására szolgál. A javasolt megvalósítás teljesítménye elegendő a beszédkódoláshoz és -dekódoláshoz az alacsonyabb árkategóriájú okostelefonokon.

Amellett, hogy egy másik generatív modellt használ, az új verzió arról is figyelemre méltó, hogy a kodek architektúrába beépített kapcsolatokat tartalmaz az RVQ (Residual Vector Quantizer) kvantálóval, amely az adatátvitel előtt a küldő oldalon és a fogadó oldalon történik. adatok beérkezése után. A kvantáló a kodek által előállított paramétereket csomaghalmazokká alakítja át, a kiválasztott bitrátával kapcsolatos információkat kódolva. A különböző minőségi szintek biztosítása érdekében a kvantálók három bitsebességgel (3.2 kps, 6 kbps és 9.2 kbps) állnak rendelkezésre, minél nagyobb a bitsebesség, annál jobb a minőség, de annál nagyobb a sávszélességigény.

A Google kiadja a Lyra V2 nyílt forráskódú audiokodeket

Az új architektúra 100-ról 20 ezredmásodpercre csökkentette a jelátviteli késleltetést. Összehasonlításképpen, a WebRTC-hez készült Opus kodek 26.5 ms, 46.5 ms és 66.5 ms késleltetést mutatott a tesztelt bitsebességek mellett. A kódoló és a dekódoló teljesítménye is jelentősen nőtt - akár 5-ször gyorsabban az előző verzióhoz képest. Például a Pixel 6 Pro okostelefonon az új kodek 20 ms alatt kódol és dekódol egy 0.57 ms-os mintát, ami 35-ször gyorsabb a valós idejű átvitelhez szükségesnél.

A teljesítmény mellett a hangvisszaállítás minőségének javítására is lehetőség nyílt - a MUSHRA skála szerint a beszédminőség 3.2 kbps, 6 kbps és 9.2 kbps bitsebességgel a Lyra V2 kodek használatakor 10 kbps bitrátának felel meg, 13 kbps. kbps és 14 kbps az Opus kodek használatakor.

Forrás: opennet.ru

Hozzászólás