Google izlaiž Lyra V2 atvērtā pirmkoda audio kodeku

Google ir ieviesis Lyra V2 audio kodeku, kas izmanto mašīnmācīšanās metodes, lai sasniegtu maksimālu balss kvalitāti ļoti lēnos sakaru kanālos. Jaunajā versijā ir pāreja uz jaunu neironu tīklu arhitektūru, atbalsts papildu platformām, uzlabota bitu pārraides ātruma kontrole, veiktspējas uzlabojumi un augstāka audio kvalitāte. Atsauces koda ieviešana ir rakstīta C++ valodā un tiek izplatīta saskaņā ar Apache 2.0 licenci.

Mazā ātrumā pārraidīto balss datu kvalitātes ziņā Lyra ir ievērojami pārāka par tradicionālajiem kodekiem, kas izmanto ciparu signālu apstrādes metodes. Lai panāktu augstas kvalitātes balss pārraidi ierobežota pārraidītās informācijas daudzuma apstākļos, papildus parastajām audio saspiešanas un signāla pārveidošanas metodēm, Lyra izmanto runas modeli, kura pamatā ir mašīnmācīšanās sistēma, kas ļauj atjaunot trūkstošo informāciju. pamatojoties uz tipiskām runas īpašībām.

Kodekā ir iekļauts kodētājs un dekodētājs. Kodētāja algoritms ir ik pēc 20 milisekundēm izvilkt balss datu parametrus, tos saspiest un pārsūtīt adresātam tīklā ar bitu pārraides ātrumu no 3.2 kb/s līdz 9.2 kb/s. Uztvērēja pusē dekodētājs izmanto ģeneratīvu modeli, lai atjaunotu sākotnējo runas signālu, pamatojoties uz pārraidītajiem audio parametriem, kas ietver logaritmiskas krīta spektrogrammas, kas ņem vērā runas enerģijas raksturlielumus dažādos frekvenču diapazonos un ir sagatavotas, ņemot vērā cilvēka dzirdes uztveri. modelis.

Lyra V2 izmanto jaunu ģeneratīvo modeli, kas balstīts uz SoundStream konvolucionālo neironu tīklu, kam raksturīgas zemas prasības skaitļošanas resursiem, kas ļauj reāllaikā dekodēt pat mazjaudas sistēmās. Skaņas ģenerēšanai izmantotais modelis ir apmācīts, izmantojot vairākus tūkstošus stundu balss ierakstus vairāk nekā 90 valodās. Modeļa izpildei tiek izmantots TensorFlow Lite. Piedāvātās ieviešanas veiktspēja ir pietiekama, lai kodētu un dekodētu runu zemāka cenu diapazona viedtālruņos.

Papildus cita ģeneratīvā modeļa izmantošanai jaunā versija ir ievērojama arī ar saišu iekļaušanu ar RVQ (atlikušā vektora kvantētājs) kvantētāju kodeku arhitektūrā, kas tiek veikta sūtītāja pusē pirms datu pārraides un saņēmēja pusē. pēc datu saņemšanas. Kvantētājs pārveido kodeka dotos parametrus pakešu kopās, kodē informāciju saistībā ar izvēlēto bitu pārraides ātrumu. Lai nodrošinātu dažādus kvalitātes līmeņus, tiek nodrošināti kvanti trīs bitu pārraides ātrumiem (3.2 k/s, 6 kb/s un 9.2 kb/s), jo lielāks bitu pārraides ātrums, jo labāka kvalitāte, bet augstākas prasības attiecībā uz joslas platumu.

Google izlaiž Lyra V2 atvērtā pirmkoda audio kodeku

Jaunā arhitektūra ir samazinājusi signāla pārraides aizkavi no 100 līdz 20 milisekundēm. Salīdzinājumam, WebRTC Opus kodeks uzrādīja 26.5 ms, 46.5 ms un 66.5 ms aizkavi pārbaudītajos bitu pārraides ātrumos. Arī kodētāja un dekodētāja veiktspēja ir ievērojami palielinājusies - salīdzinot ar iepriekšējo versiju, ir paātrinājums līdz 5 reizēm. Piemēram, viedtālrunī Pixel 6 Pro jaunais kodeks kodē un atkodē 20 ms paraugu 0.57 ms, kas ir 35 reizes ātrāk nekā nepieciešams reāllaika pārraidei.

Papildus veiktspējai mums izdevās uzlabot arī skaņas atjaunošanas kvalitāti - pēc MUSHRA skalas runas kvalitāte ar bitu pārraides ātrumu 3.2 kbps, 6 kbps un 9.2 kbps, izmantojot Lyra V2 kodeku, atbilst bitu pārraides ātrumam 10 kbps, 13 kbps un 14 kbps, izmantojot Opus kodeku.

Avots: opennet.ru

Pievieno komentāru