Google yomon aloqa sifati bilan nutqni uzatish uchun Lyra audio kodekini nashr etdi

Google juda sekin aloqa kanallaridan foydalanganda ham maksimal ovoz sifatiga erishish uchun optimallashtirilgan yangi Lyra audio kodekini taqdim etdi. Lyra amalga oshirish kodi C++ tilida yozilgan va Apache 2.0 litsenziyasi ostida ochilgan, ammo ishlash uchun zarur bo'lgan bog'liqliklar orasida matematik hisoblar uchun yadro dasturiga ega libsparse_inference.so xususiy kutubxonasi mavjud. Qayd etilishicha, xususiy kutubxona vaqtinchalik – kelajakda Google ochiq oβ€˜rinbosar ishlab chiqishga va turli platformalarni qoβ€˜llab-quvvatlashga va’da bermoqda.

Past tezlikda uzatiladigan ovozli ma'lumotlarning sifati bo'yicha Lyra raqamli signallarni qayta ishlash usullaridan foydalanadigan an'anaviy kodeklardan sezilarli darajada ustundir. Uzatilgan ma'lumotlarning cheklangan miqdori sharoitida ovozni yuqori sifatli uzatishga erishish uchun, ovozni siqish va signalni o'zgartirishning an'anaviy usullaridan tashqari, Lyra mashinani o'rganish tizimiga asoslangan nutq modelidan foydalanadi, bu sizga etishmayotgan ma'lumotlarni qayta yaratishga imkon beradi. tipik nutq xususiyatlari. Ovozni yaratishda foydalanilgan model 70 dan ortiq tilda bir necha ming soatlik ovozli yozuvlar yordamida o'qitildi.

Google yomon aloqa sifati bilan nutqni uzatish uchun Lyra audio kodekini nashr etdi

Kodek kodlovchi va dekoderni o'z ichiga oladi. Kodlovchining algoritmi har 40 millisekundda ovozli ma'lumotlar parametrlarini ajratib olish, ularni siqish va ularni tarmoq orqali qabul qiluvchiga uzatishgacha boradi. Ma'lumotlarni uzatish uchun sekundiga 3 kilobit tezlikdagi aloqa kanali etarli. Chiqarilgan audio parametrlar turli chastota diapazonlarida nutqning energiya xususiyatlarini hisobga oladigan va insonning eshitish idroki modelini hisobga olgan holda tayyorlangan logarifmik mel spektrogrammalarini o'z ichiga oladi.

Google yomon aloqa sifati bilan nutqni uzatish uchun Lyra audio kodekini nashr etdi

Dekoder uzatiladigan audio parametrlariga asoslanib, nutq signalini qayta yaratuvchi generativ modeldan foydalanadi. Hisob-kitoblarning murakkabligini kamaytirish uchun takroriy neyron tarmog'iga asoslangan engil model ishlatilgan, bu WaveRNN nutq sintezi modelining varianti bo'lib, u pastroq namuna olish chastotasidan foydalanadi, lekin turli chastota diapazonlarida parallel ravishda bir nechta signallarni hosil qiladi. Keyin olingan signallar belgilangan namuna olish tezligiga mos keladigan bitta chiqish signalini ishlab chiqarish uchun ustiga qo'yiladi.

Tezlashtirish uchun 64-bitli ARM protsessorlarida mavjud bo'lgan maxsus protsessor ko'rsatmalari ham qo'llaniladi. Natijada, mashinani o'rganishdan foydalanishga qaramay, Lyra kodekidan o'rta darajadagi smartfonlarda real vaqt rejimida nutqni kodlash va dekodlash uchun foydalanish mumkin, bu signal uzatishning 90 millisekundlik kechikishini namoyish etadi.

Manba: opennet.ru

a Izoh qo'shish