Google ir publicējis Lyra audio kodeku runas pārraidei sliktā savienojuma kvalitātē

Google ir ieviesis jaunu audio kodeku Lyra, kas ir optimizēts, lai sasniegtu maksimālu runas kvalitāti pat ļoti lēnos tÄ«kla savienojumos. Lyra ievieÅ”ana ir rakstÄ«ta C++ valodā un ir atvērtā koda saskaņā ar Apache 2.0 licenci, taču tai ir nepiecieÅ”ama patentēta bibliotēka libsparse_inference.so, kas ievieÅ” galveno matemātisko aprēķinu dzinēju. JāatzÄ«mē, ka Ŕī patentētā bibliotēka ir pagaidu; Google sola izstrādāt atvērtā koda aizstājēju un nākotnē nodroÅ”ināt atbalstu vairākām platformām.

Runājot par balss datu kvalitāti pie zema bitu pārraides ātruma, Lyra ievērojami pārspēj tradicionālos kodekus, kas izmanto digitālo signālu apstrādi. Lai panāktu augstas kvalitātes balss pārraidi ar ierobežotu joslas platumu, papildus tradicionālajām audio saspieÅ”anas un signāla pārveidoÅ”anas metodēm Lyra izmanto maŔīnmācīŔanās balstÄ«tu runas modeli, kas rekonstruē trÅ«kstoÅ”o informāciju, pamatojoties uz tipiskām runas Ä«paŔībām. Audio Ä£enerēŔanai izmantotais modelis tika apmācÄ«ts, izmantojot tÅ«kstoÅ”iem stundu balss ierakstu vairāk nekā 70 valodās.

Google ir publicējis Lyra audio kodeku runas pārraidei sliktā savienojuma kvalitātē

Kodeks ietver kodētāju un dekodētāju. Kodētāja algoritms ik pēc 40 milisekundēm iegūst balss datu parametrus, saspiež tos un pārraida saņēmējam tīklā. Datu pārraidei pietiek ar sakaru kanālu ar ātrumu 3 kilobiti sekundē. Iegūtie audio parametri ietver logaritmiskas mel-spektrogrammas, kas ņem vērā runas enerģijas raksturlielumus dažādos frekvenču diapazonos un ir sagatavotas, izmantojot cilvēka dzirdes uztveres modeli.

Google ir publicējis Lyra audio kodeku runas pārraidei sliktā savienojuma kvalitātē

Dekodētājs izmanto Ä£eneratÄ«vu modeli, kas rekonstruē runas signālu, pamatojoties uz pārraidÄ«tajiem audio parametriem. Lai samazinātu skaitļoÅ”anas sarežģītÄ«bu, tiek izmantots viegls modelis, kas balstÄ«ts uz rekurentu neironu tÄ«klu. Å is modelis ir WaveRNN runas sintēzes modeļa variants, kas izmanto zemāku paraugu ņemÅ”anas frekvenci, bet vienlaikus Ä£enerē vairākus signālus dažādos frekvenču diapazonos. IegÅ«tie signāli pēc tam tiek uzlikti viens virs otra, lai radÄ«tu vienu izejas signālu, kas atbilst norādÄ«tajam paraugu ņemÅ”anas ātrumam.

PaātrināŔanai tiek izmantotas arÄ« specializētas procesora instrukcijas, kas pieejamas 64 bitu ARM procesoros. Tā rezultātā, neskatoties uz maŔīnmācīŔanās izmantoÅ”anu, Lyra kodeku var izmantot reāllaika runas kodēŔanai un dekodēŔanai vidējas klases viedtālruņos, demonstrējot signāla pārraides latentumu 90 milisekundes.

Avots: opennet.ru

Iegādājieties uzticamu mitināŔanu vietnēm ar DDoS aizsardzÄ«bu, VPS VDS serveriem šŸ”„ Iegādājieties uzticamu tÄ«mekļa vietņu mitināŔanu ar DDoS aizsardzÄ«bu, VPS VDS serveriem | ProHoster