Google апублікаваў адкрыты аўдыёкодэк Lyra V2

Кампанія Google прадставіла аўдыёкодэк Lyra V2, які выкарыстоўвае метады машыннага навучання для дасягнення максімальнай якасці перадачы прамовы пры выкарыстанні вельмі павольных каналаў сувязі. Новая версія адрозніваецца пераходам на новую архітэктуру нейронавай сеткі, падтрымкай дадатковых платформаў, пашыранымі магчымасцямі кіравання бітрэйтам, павышэннем прадукцыйнасці і дасягненнем больш высокай якасці гуку. Эталонная рэалізацыя кода напісана на C++ і распаўсюджваецца пад ліцэнзіяй Apache 2.0.

Па якасці перадаваных галасавых дадзеных на нізкіх хуткасцях Lyra істотна пераўзыходзіць традыцыйныя кодэкі, у якіх выкарыстоўваюцца метады лічбавай апрацоўкі сігналаў. Для дасягнення высокай якасці перадачы голасу ва ўмовах абмежаванага аб'ёму перадаваемай інфармацыі, апроч звычайных метадаў сціску гуку і пераўтварэнні сігналаў, у Lyra ужываецца моўная мадэль на базе сістэмы машыннага навучання, якая дазваляе ўзнавіць адсутную інфармацыю на аснове тыпавых характарыстык гаворкі.

Кодэк уключае ў сябе кадавальнік і дэкадавальнік. Алгарытм працы кадавальніка зводзіцца да вымання параметраў галасавых дадзеных кожныя 20 мілісекунд, іх сціску і перадачы атрымальніку па сетцы c бітрэйтам ад 3.2kbps да 9.2kbps. На баку атрымальніка дэкадавальнік выкарыстоўвае генератыўную мадэль для ўзнаўлення зыходнага маўленчага сігналу на аснове перададзеных гукавых параметраў, якія складаюцца з лагарыфмічныя мел-спектраграмы, якія ўлічваюць характарыстыкі энергіі гаворкі ў розных частотных дыяпазонах і падрыхтаваныя з улікам мадэлі чалавечага слыхавога ўспрымання.

У Lyra V2 скарыстана новая генератыўная мадэль на аснове скруткавай нейронавай сеткі SoundStream, адрознай нізкімі патрабаваннямі ў вылічальных рэсурсах, што дазваляе выконваць дэкадаванне ў рэжыме рэальнага часу нават на маламагутных сістэмах. Задзейнічаная для генерацыі гуку мадэль навучана з выкарыстаннем некалькіх тысяч гадзін з запісамі галасоў на больш за 90 мовах. Для выканання мадэлі выкарыстоўваецца TensorFlow Lite. Прадукцыйнасці прапанаванай рэалізацыі дастаткова для кадавання і дэкадавання прамовы на смартфонах ніжняга коштавага дыяпазону.

Акрамя выкарыстання іншай генератыўнай мадэлі новая версія таксама характэрная уключэннем у архітэктуру кодэка звёнаў з квантавальнікам RVQ (Residual Vector Quantizer), выкананым на боку адпраўніка перад перадачай дадзеных, а на боку атрымальніка пасля прыёму дадзеных. Квантавальнік пераўтворыць выдаваныя кодэкам параметры ў наборы пакетаў, кадуючы інфармацыю ў прывязцы да абранага бітрэйту. Для забеспячэння рознага ўзроўню якасці прадугледжаны квантавальнікі для трох бітрэйтаў (3.2 kps, 6 kbps і 9.2 kbps), чым вышэй бітрэйт, тым лепш якасць, але больш высокія патрабаванні да прапускной здольнасці.

Google апублікаваў адкрыты аўдыёкодэк Lyra V2

Новая архітэктура дазволіла знізіць затрымкі перадачы сігналу са 100 да 20 мілісекунд. Для параўнання кодэк Opus для WebRTC прадэманстраваў на пратэставаных бітрэйтах затрымкі ў 26.5/46.5мс, 66.5мс і 5мс. Таксама значна вырасла прадукцыйнасць кадавальніка і дэкадавальніка - у параўнанні з мінулай версіяй адзначаецца паскарэнне да 6 разоў. Напрыклад, на смартфоне Pixel 20 Pro новы кодэк выконвае кадаванне і дэкадаванне 0.57-мілісекунднай выбаркі за 35 мс, што ў XNUMX разоў хутчэй, чым неабходна для перадачы ў рэжыме рэальнага часу.

Акрамя прадукцыйнасці атрымалася дамагчыся і падвышэнне якасці ўзнаўлення гуку – па шкале MUSHRA якасць гаворкі на бітрэйтах 3.2 kbps, 6 kbps і 9.2 kbps пры выкарыстанні кодэка Lyra V2 адпавядае бітрэйтам 10 kbps, 13 kbps і 14 kbps пры выкарыстанні кодэка Opus.

Крыніца: opennet.ru

Дадаць каментар