Google ir ieviesis jaunu audio kodeku Lyra, kas ir optimizÄts, lai sasniegtu maksimÄlu runas kvalitÄti pat ļoti lÄnos tÄ«kla savienojumos. Lyra ievieÅ”ana ir rakstÄ«ta C++ valodÄ un ir atvÄrtÄ koda saskaÅÄ ar Apache 2.0 licenci, taÄu tai ir nepiecieÅ”ama patentÄta bibliotÄka libsparse_inference.so, kas ievieÅ” galveno matemÄtisko aprÄÄ·inu dzinÄju. JÄatzÄ«mÄ, ka Ŕī patentÄtÄ bibliotÄka ir pagaidu; Google sola izstrÄdÄt atvÄrtÄ koda aizstÄjÄju un nÄkotnÄ nodroÅ”inÄt atbalstu vairÄkÄm platformÄm.
RunÄjot par balss datu kvalitÄti pie zema bitu pÄrraides Ätruma, Lyra ievÄrojami pÄrspÄj tradicionÄlos kodekus, kas izmanto digitÄlo signÄlu apstrÄdi. Lai panÄktu augstas kvalitÄtes balss pÄrraidi ar ierobežotu joslas platumu, papildus tradicionÄlajÄm audio saspieÅ”anas un signÄla pÄrveidoÅ”anas metodÄm Lyra izmanto maŔīnmÄcīŔanÄs balstÄ«tu runas modeli, kas rekonstruÄ trÅ«kstoÅ”o informÄciju, pamatojoties uz tipiskÄm runas Ä«paŔībÄm. Audio Ä£enerÄÅ”anai izmantotais modelis tika apmÄcÄ«ts, izmantojot tÅ«kstoÅ”iem stundu balss ierakstu vairÄk nekÄ 70 valodÄs.

Kodeks ietver kodÄtÄju un dekodÄtÄju. KodÄtÄja algoritms ik pÄc 40 milisekundÄm iegÅ«st balss datu parametrus, saspiež tos un pÄrraida saÅÄmÄjam tÄ«klÄ. Datu pÄrraidei pietiek ar sakaru kanÄlu ar Ätrumu 3 kilobiti sekundÄ. IegÅ«tie audio parametri ietver logaritmiskas mel-spektrogrammas, kas Åem vÄrÄ runas enerÄ£ijas raksturlielumus dažÄdos frekvenÄu diapazonos un ir sagatavotas, izmantojot cilvÄka dzirdes uztveres modeli.

DekodÄtÄjs izmanto Ä£eneratÄ«vu modeli, kas rekonstruÄ runas signÄlu, pamatojoties uz pÄrraidÄ«tajiem audio parametriem. Lai samazinÄtu skaitļoÅ”anas sarežģītÄ«bu, tiek izmantots viegls modelis, kas balstÄ«ts uz rekurentu neironu tÄ«klu. Å is modelis ir WaveRNN runas sintÄzes modeļa variants, kas izmanto zemÄku paraugu ÅemÅ”anas frekvenci, bet vienlaikus Ä£enerÄ vairÄkus signÄlus dažÄdos frekvenÄu diapazonos. IegÅ«tie signÄli pÄc tam tiek uzlikti viens virs otra, lai radÄ«tu vienu izejas signÄlu, kas atbilst norÄdÄ«tajam paraugu ÅemÅ”anas Ätrumam.
PaÄtrinÄÅ”anai tiek izmantotas arÄ« specializÄtas procesora instrukcijas, kas pieejamas 64 bitu ARM procesoros. TÄ rezultÄtÄ, neskatoties uz maŔīnmÄcīŔanÄs izmantoÅ”anu, Lyra kodeku var izmantot reÄllaika runas kodÄÅ”anai un dekodÄÅ”anai vidÄjas klases viedtÄlruÅos, demonstrÄjot signÄla pÄrraides latentumu 90 milisekundes.
Avots: opennet.ru
