Google je objavil zvočni kodek Lyra za prenos govora pri slabi kakovosti povezave

Google je predstavil nov zvočni kodek Lyra, optimiziran za doseganje največje kakovosti zvoka tudi pri uporabi zelo počasnih komunikacijskih kanalov. Izvedbena koda Lyra je napisana v C++ in odprta pod licenco Apache 2.0, vendar je med odvisnostmi, potrebnimi za delovanje, lastniška knjižnica libsparse_inference.so z implementacijo jedra za matematične izračune. Opozoriti je treba, da je lastniška knjižnica začasna - v prihodnosti Google obljublja, da bo razvil odprto zamenjavo in zagotovil podporo za različne platforme.

Glede na kakovost prenosa glasovnih podatkov pri nizkih hitrostih je Lyra bistveno boljši od tradicionalnih kodekov, ki uporabljajo metode digitalne obdelave signala. Da bi dosegli visoko kakovost prenosa govora v pogojih omejene količine prenesenih informacij, Lyra poleg običajnih metod stiskanja zvoka in pretvorbe signala uporablja govorni model, ki temelji na sistemu strojnega učenja, ki vam omogoča ponovno ustvarjanje manjkajočih informacij na podlagi tipične govorne značilnosti. Model, uporabljen za ustvarjanje zvoka, je bil usposobljen z uporabo več tisoč ur glasovnih posnetkov v več kot 70 jezikih.

Google je objavil zvočni kodek Lyra za prenos govora pri slabi kakovosti povezave

Kodek vključuje kodirnik in dekoder. Algoritem kodirnika se zmanjša na pridobivanje parametrov glasovnih podatkov vsakih 40 milisekund, njihovo stiskanje in posredovanje prejemniku po omrežju. Za prenos podatkov zadostuje komunikacijski kanal s hitrostjo 3 kilobite na sekundo. Ekstrahirani zvočni parametri vključujejo logaritemske mel spektrograme, ki upoštevajo energijske značilnosti govora v različnih frekvenčnih območjih in so pripravljeni ob upoštevanju modela človeškega slušnega zaznavanja.

Google je objavil zvočni kodek Lyra za prenos govora pri slabi kakovosti povezave

Dekoder uporablja generativni model, ki na podlagi oddanih zvočnih parametrov poustvari govorni signal. Za zmanjšanje kompleksnosti izračunov je bil uporabljen lahek model, ki temelji na rekurentni nevronski mreži, ki je različica modela za sintezo govora WaveRNN, ki uporablja nižjo frekvenco vzorčenja, vendar generira več signalov vzporedno v različnih frekvenčnih območjih. Nastali signali se nato prekrivajo, da proizvedejo en sam izhodni signal, ki ustreza določeni hitrosti vzorčenja.

Za pospeševanje se uporabljajo tudi posebna procesorska navodila, ki so na voljo v 64-bitnih procesorjih ARM. Posledično se lahko kljub uporabi strojnega učenja kodek Lyra uporablja za kodiranje in dekodiranje govora v realnem času na pametnih telefonih srednjega razreda, kar dokazuje zakasnitev prenosa signala 90 milisekund.

Vir: opennet.ru

Dodaj komentar