Google annab välja Lyra V2 avatud lähtekoodiga helikodeki

Google on kasutusele võtnud Lyra V2 helikodeki, mis kasutab masinõppe tehnikaid, et saavutada maksimaalne kõne kvaliteet väga aeglaste sidekanalite kaudu. Uus versioon sisaldab üleminekut uuele närvivõrgu arhitektuurile, täiendavate platvormide tuge, laiendatud bitikiiruse juhtimisvõimalusi, paremat jõudlust ja paremat helikvaliteeti. Viitekoodi juurutamine on kirjutatud C++ keeles ja seda levitatakse Apache 2.0 litsentsi all.

Madalatel kiirustel edastatavate kõneandmete kvaliteedi poolest on Lyra oluliselt parem kui traditsioonilised koodekid, mis kasutavad digitaalseid signaalitöötlusmeetodeid. Kvaliteetse kõneedastuse saavutamiseks piiratud koguse edastatava teabe tingimustes kasutab Lyra lisaks tavapärastele heli tihendamise ja signaali muundamise meetoditele masinõppesüsteemil põhinevat kõnemudelit, mis võimaldab puuduva teabe uuesti luua. tüüpilised kõne omadused.

Kodek sisaldab kodeerijat ja dekoodrit. Kodeerija algoritm taandub kõneandmete parameetrite ekstraheerimisele iga 20 millisekundi järel, nende tihendamisel ja adressaadile edastamisel võrgu kaudu bitikiirusega 3.2 kuni 9.2 kbps. Vastuvõtja otsas kasutab dekooder generatiivset mudelit, et rekonstrueerida edastatud heliparameetrite põhjal algne kõnesignaal, mis sisaldab logaritmilisi kriidispektrogramme, mis võtavad arvesse kõne energiaomadusi erinevates sagedusvahemikes ja on koostatud, võttes arvesse kõnede mudeleid. inimese kuuldav taju.

Lyra V2 kasutab uut generatiivset mudelit, mis põhineb SoundStream konvolutsioonilisel närvivõrgul, millel on madalad arvutusnõuded, võimaldades reaalajas dekodeerimist isegi vähese energiatarbega süsteemides. Heli genereerimiseks kasutatud mudelit õpetati mitme tuhande tunni pikkuse helisalvestiste abil enam kui 90 keeles. Mudeli täitmiseks kasutatakse TensorFlow Lite'i. Kavandatava teostuse jõudlus on piisav kõne kodeerimiseks ja dekodeerimiseks madalamas hinnaklassis nutitelefonides.

Lisaks teistsuguse generatiivse mudeli kasutamisele on uus versioon tähelepanuväärne ka selle poolest, et kodeki arhitektuuri sisaldab linke RVQ (Residual Vector Quantizer) kvantisaatoriga, mis käivitatakse saatja poolel enne andmete edastamist ja vastuvõtja poolel. pärast andmete saamist. Kvantiseerija teisendab koodeki loodud parameetrid pakettide komplektideks, kodeerides teavet valitud bitikiiruse suhtes. Erinevate kvaliteeditasemete tagamiseks on kvantisaatorid ette nähtud kolme bitikiiruse jaoks (3.2 kps, 6 kbps ja 9.2 kbps), mida suurem on bitikiirus, seda parem on kvaliteet, kuid seda kõrgemad on ribalaiuse nõuded.

Google annab välja Lyra V2 avatud lähtekoodiga helikodeki

Uus arhitektuur on vähendanud signaali edastamise viivitusi 100 millisekundilt 20 millisekundile. Võrdluseks, WebRTC jaoks mõeldud Opuse koodek näitas testitud bitikiirustel latentsusaega 26.5 ms, 46.5 ms ja 66.5 ms. Kodeerija ja dekoodri jõudlus on samuti oluliselt kasvanud – kuni 5 korda kiiremini võrreldes eelmise versiooniga. Näiteks Pixel 6 Pro nutitelefonis kodeerib ja dekodeerib uus koodek 20 ms proovi 0.57 ms jooksul, mis on 35 korda kiirem kui reaalajas edastamiseks vaja.

Lisaks jõudlusele oli võimalik parandada ka heli taastamise kvaliteeti - MUSHRA skaala järgi vastab kõnekvaliteet bitikiirustel 3.2 kbps, 6 kbps ja 9.2 kbps Lyra V2 koodeki kasutamisel bitikiirusele 10 kbps, 13 kbps ja 14 kbps Opuse koodeki kasutamisel.

Allikas: opennet.ru

Lisa kommentaar