A Google közzétette a Lyra audiokodeket rossz minőségű beszédátvitelhez

A Google bevezetett egy új audiokodeket, a Lyra-t, amelyet úgy optimalizáltak, hogy még nagyon lassú kommunikációs csatornák használata esetén is maximális hangminőséget érjen el. A Lyra implementációs kódja C++ nyelven íródott és Apache 2.0 licenc alatt nyílik meg, de a működéshez szükséges függőségek között van egy saját könyvtár, a libsparse_inference.so kernel implementációval a matematikai számításokhoz. Megjegyzendő, hogy a szabadalmaztatott könyvtár ideiglenes – a jövőben a Google azt ígéri, hogy nyílt helyettesítőt fejleszt ki, és támogatást nyújt különböző platformokhoz.

Az alacsony sebességen továbbított hangadatok minőségét tekintve a Lyra jelentősen felülmúlja a hagyományos, digitális jelfeldolgozási módszereket alkalmazó kodekeket. A jó minőségű hangátvitel elérése érdekében korlátozott mennyiségű továbbított információ mellett a hagyományos hangtömörítési és jelátalakítási módszerek mellett a Lyra gépi tanulási rendszeren alapuló beszédmodellt használ, amely lehetővé teszi a hiányzó információk újbóli létrehozását. tipikus beszédjellemzők. A hang generálására használt modellt több ezer órányi hangfelvétel segítségével képezték ki több mint 70 nyelven.

A Google közzétette a Lyra audiokodeket rossz minőségű beszédátvitelhez

A kodek tartalmaz egy kódolót és egy dekódert. A kódoló algoritmusa a hangadatok paramétereinek 40 ezredmásodpercenkénti kinyerésére, tömörítésére és a hálózaton keresztül történő továbbítására irányul. Az adatátvitelhez elegendő egy 3 kilobit/s sebességű kommunikációs csatorna. A kinyert hangparaméterek között logaritmikus mel spektrogramok szerepelnek, amelyek figyelembe veszik a beszéd energiajellemzőit különböző frekvenciatartományokban, és az emberi hallásérzékelés modelljének figyelembevételével készülnek.

A Google közzétette a Lyra audiokodeket rossz minőségű beszédátvitelhez

A dekóder egy generatív modellt használ, amely a továbbított audioparaméterek alapján újra létrehozza a beszédjelet. A számítások bonyolultságának csökkentése érdekében egy rekurrens neurális hálózaton alapuló lightweight modellt alkalmaztunk, amely a WaveRNN beszédszintézis modell egy változata, amely alacsonyabb mintavételi frekvenciát használ, de több jelet is generál párhuzamosan különböző frekvenciatartományokban. Az eredményül kapott jeleket azután szuperponálják, hogy a meghatározott mintavételezési frekvenciának megfelelő egyetlen kimeneti jelet állítsanak elő.

A 64 bites ARM processzorokban rendelkezésre álló speciális processzorutasítások is használhatók a gyorsításhoz. Ennek eredményeként a gépi tanulás használata ellenére a Lyra kodek valós idejű beszédkódolásra és dekódolásra használható középkategóriás okostelefonokon, 90 ezredmásodperces jelátviteli késleltetéssel.

Forrás: opennet.ru

Hozzászólás