Google Lyra V2 ochiq kodli audio kodekni nashr etadi

Google kompaniyasi Lyra V2 audio kodekini taqdim etdi, u juda sekin aloqa kanallarida maksimal ovoz sifatiga erishish uchun mashinani o'rganish usullaridan foydalanadi. Yangi versiyada yangi neyron tarmoq arxitekturasiga o'tish, qo'shimcha platformalarni qo'llab-quvvatlash, kengaytirilgan bit tezligini boshqarish imkoniyatlari, yaxshilangan ishlash va yuqori ovoz sifati mavjud. Malumot kodini amalga oshirish C++ tilida yozilgan va Apache 2.0 litsenziyasi ostida tarqatiladi.

Past tezlikda uzatiladigan ovozli ma'lumotlarning sifati bo'yicha Lyra raqamli signallarni qayta ishlash usullaridan foydalanadigan an'anaviy kodeklardan sezilarli darajada ustundir. Uzatilgan ma'lumotlarning cheklangan miqdori sharoitida ovozni yuqori sifatli uzatishga erishish uchun, ovozni siqish va signalni o'zgartirishning an'anaviy usullaridan tashqari, Lyra mashinani o'rganish tizimiga asoslangan nutq modelidan foydalanadi, bu sizga etishmayotgan ma'lumotlarni qayta yaratishga imkon beradi. tipik nutq xususiyatlari.

Kodek kodlovchi va dekoderni o'z ichiga oladi. Kodlovchining algoritmi har 20 millisekundda ovozli ma'lumotlar parametrlarini ajratib olish, ularni siqish va ularni 3.2 kbit / s dan 9.2 kbit / s gacha bo'lgan bit tezligi bilan tarmoq orqali qabul qiluvchiga uzatishga qadar qaynatiladi. Qabul qiluvchining oxirida dekoder uzatiladigan ovoz parametrlari asosida asl nutq signalini qayta qurish uchun generativ modeldan foydalanadi, ular turli chastota diapazonlarida nutqning energiya xususiyatlarini hisobga olgan va turli xil chastota diapazonlarida nutqning energiya xususiyatlarini hisobga olgan holda logarifmik bo'r spektrogrammalarini o'z ichiga oladi. insonning eshitish idroki.

Lyra V2 SoundStream konvolyutsion neyron tarmog'iga asoslangan yangi generativ modeldan foydalanadi, u past hisoblash talablariga ega va hatto kam quvvatli tizimlarda ham real vaqt rejimida dekodlash imkonini beradi. Ovoz yaratish uchun foydalanilgan model 90 dan ortiq tillarda bir necha ming soatlik ovozli yozuvlar yordamida o'qitildi. Modelni bajarish uchun TensorFlow Lite ishlatiladi. Taklif etilayotgan dasturning ishlashi pastroq narx oralig'idagi smartfonlarda nutqni kodlash va dekodlash uchun etarli.

Boshqa generativ modeldan foydalanishdan tashqari, yangi versiya kodek arxitekturasiga ma'lumotlarni uzatishdan oldin jo'natuvchi tomonida va qabul qiluvchi tomonda bajariladigan RVQ (qoldiq vektor kvantizator) kvantizatori bilan bog'lanishlarni kiritishi bilan ham e'tiborga loyiqdir. ma'lumotlarni olgandan keyin. Kvantizator kodek tomonidan ishlab chiqarilgan parametrlarni tanlangan bit tezligiga nisbatan ma'lumotlarni kodlash orqali paketlar to'plamiga aylantiradi. Turli darajadagi sifatni ta'minlash uchun kvantizatorlar uchta bit tezligi (3.2 kps, 6 kbps va 9.2 kbps) uchun taqdim etiladi, bit tezligi qanchalik yuqori bo'lsa, sifat shunchalik yaxshi bo'ladi, lekin tarmoqli kengligi talablari qanchalik baland.

Google Lyra V2 ochiq kodli audio kodekni nashr etadi

Yangi arxitektura signal uzatish kechikishlarini 100 dan 20 millisekundgacha qisqartirdi. Taqqoslash uchun, WebRTC uchun Opus kodek sinovdan o'tgan bit tezligida 26.5 ms, 46.5 ms va 66.5 ms kechikishlarni ko'rsatdi. Koder va dekoderning ishlashi ham sezilarli darajada oshdi - oldingi versiyaga nisbatan 5 barobar tezroq. Masalan, Pixel 6 Pro smartfonida yangi kodek 20 msli namunani 0.57 msda kodlaydi va dekodlaydi, bu real vaqt rejimida uzatish uchun talab qilinganidan 35 baravar tezroq.

Ishlashdan tashqari, ovozni qayta tiklash sifatini yaxshilash ham mumkin edi - MUSHRA shkalasiga ko'ra, Lyra V3.2 kodekidan foydalanganda 6 kbps, 9.2 kbps va 2 kbps bit tezligidagi nutq sifati 10 kbps, 13 bit tezligiga to'g'ri keladi. Kbps va Opus kodekidan foydalanganda 14 kbps.

Manba: opennet.ru

a Izoh qo'shish