Google ir publicējis Lyra audio kodeku runas pārraidei sliktā savienojuma kvalitātē

Google ir ieviesis jaunu audio kodeku Lyra, kas optimizēts, lai sasniegtu maksimālu balss kvalitāti pat tad, ja tiek izmantoti ļoti lēni sakaru kanāli. Lyra ieviešanas kods ir rakstīts C++ valodā un ir atvērts saskaņā ar Apache 2.0 licenci, taču starp darbībai nepieciešamajām atkarībām ir patentēta bibliotēka libsparse_inference.so ar kodola implementāciju matemātisko aprēķinu veikšanai. Tiek atzīmēts, ka patentētā bibliotēka ir īslaicīga - nākotnē Google sola izstrādāt atvērtu nomaiņu un nodrošināt atbalstu dažādām platformām.

Mazā ātrumā pārraidīto balss datu kvalitātes ziņā Lyra ir ievērojami pārāka par tradicionālajiem kodekiem, kas izmanto ciparu signālu apstrādes metodes. Lai sasniegtu augstas kvalitātes balss pārraidi ierobežota pārraidītās informācijas daudzuma apstākļos, papildus parastajām audio saspiešanas un signāla konvertēšanas metodēm Lyra izmanto runas modeli, kura pamatā ir mašīnmācīšanās sistēma, kas ļauj atjaunot trūkstošo informāciju, pamatojoties uz tipiskas runas īpašības. Skaņas ģenerēšanai izmantotais modelis tika apmācīts, izmantojot vairākus tūkstošus stundu balss ierakstus vairāk nekā 70 valodās.

Google ir publicējis Lyra audio kodeku runas pārraidei sliktā savienojuma kvalitātē

Kodekā ir iekļauts kodētājs un dekodētājs. Kodētāja algoritms ir balstīts uz balss datu parametru izņemšanu ik pēc 40 milisekundēm, to saspiešanu un pārsūtīšanu adresātam tīklā. Datu pārraidei pietiek ar sakaru kanālu ar ātrumu 3 kilobiti sekundē. Iegūtie audio parametri ietver logaritmiskās mel spektrogrammas, kas ņem vērā runas enerģētiskos raksturlielumus dažādos frekvenču diapazonos un ir sagatavotas, ņemot vērā cilvēka dzirdes uztveres modeli.

Google ir publicējis Lyra audio kodeku runas pārraidei sliktā savienojuma kvalitātē

Dekodētājs izmanto ģeneratīvu modeli, kas, pamatojoties uz pārraidītajiem audio parametriem, atjauno runas signālu. Lai samazinātu aprēķinu sarežģītību, tika izmantots uz atkārtotu neironu tīklu balstīts vieglais modelis, kas ir WaveRNN runas sintēzes modeļa variants, kas izmanto zemāku iztveršanas frekvenci, bet ģenerē vairākus signālus paralēli dažādos frekvenču diapazonos. Pēc tam iegūtie signāli tiek uzlikti, lai iegūtu vienu izejas signālu, kas atbilst noteiktajam paraugu ņemšanas ātrumam.

Paātrinājumam tiek izmantotas arī specializētas procesora instrukcijas, kas pieejamas 64 bitu ARM procesoros. Rezultātā, neskatoties uz mašīnmācības izmantošanu, Lyra kodeku var izmantot reāllaika runas kodēšanai un dekodēšanai vidēja līmeņa viedtālruņos, demonstrējot signāla pārraides latentumu 90 milisekundēs.

Avots: opennet.ru

Pievieno komentāru