Facebook апублікаваў гукавы кодэк EnCodec, які выкарыстоўвае машыннае навучанне

Кампанія Meta / Facebook (забаронена ў РФ) прадставіла новы гукавы кодэк EnCodec, які выкарыстоўвае метады машыннага навучання для павышэння ступені сціску без страты якасці. Кодэк можа ўжываць як для струменевай перадачы гуку ў рэжыме рэальнага часу, так і для кадавання для наступнага захавання ў файлах. Эталонная рэалізацыя EnCodec напісана на мове Python з выкарыстаннем фрэймворка PyTorch і распаўсюджваецца пад ліцэнзіяй CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial), якая дапускае выкарыстанне толькі ў некамерцыйных мэтах.

Для загрузкі прапанаваны дзве гатовыя мадэлі:

  • Каузальная мадэль, якая выкарыстоўвае частату дыскрэтызацыі 24 kHz, якая падтрымлівае толькі монафанічны гук і натрэніраваная на разнапланавых гукавых дадзеных (падыходзіць для кадавання прамовы). Мадэль можа выкарыстоўвацца для пакавання гукавых дадзеных для перадачы з бітрэйтамі 1.5, 3, 6, 12 і 24 kbps.
  • Некаузальная мадэль, якая выкарыстоўвае частату дыскрэтызацыі 48 kHz, якая падтрымлівае стэрэагук і натрэніраваная толькі на музыцы. Мадэллю падтрымліваюцца бітрэйты 3, 6, 12 і 24 kbps.

Для кожнай мадэлі падрыхтавана дадатковая моўная мадэль, якая дазваляе дабіцца значнага павелічэння ступені сціску (да 40%) без страты якасці. У адрозненне ад раней якія развіваюцца праектаў па ўжыванні метадаў машыннага навучання для сціску гуку, EnCodec можа ўжывацца не толькі для пакавання гаворкі, але і для сціску музыкі з частатой дыскрэтызацыі 48 kHz, якая адпавядае ўзроўню гукавых CD. Па заяве распрацоўнікаў новага кодэка пры перадачы з бітрэйтам 64 kbps у параўнанні з фарматам MP3 ім атрымалася прыкладна ў дзесяць разоў павялічыць ступень сціску гуку з захаваннем таго ж узроўня якасці (напрыклад, калі пры выкарыстанні MP3 патрабуецца паласа прапускання ў 64 kbps, для перадачы з тым жа якасцю ў EnCodec дастаткова 6 kbps).

Архітэктура кодэка пабудавана на базе нейронавай сеткі з архітэктурай «трансформер» і засноўваецца на чатырох звёнах: кадавальніка, квантавальніка, дэкадавальніка і дыскрымінатара. Кадавальнік здабывае параметры галасавых дадзеных і пераўтворыць іх спакаваны струмень з ніжэйшай частатой кадраў. Квантавальнік (RVQ, Residual Vector Quantizer) пераўтворыць які выдаецца кадавальнікам струмень у наборы пакетаў, сціскаючы інфармацыю ў прывязцы да абранага бітрэйту. На вынахадзе квантавальніка ўтворыцца сціснутае паданне дадзеных, прыдатнае для перадачы па сетцы або захаванні на дыск.

Дэкадавальнік раскадуе сціснутае паданне дадзеных і аднаўляе зыходную гукавую хвалю. Дыскрымінатар паляпшае якасць генераваных узораў (sample) з улікам мадэлі чалавечага слыхавога ўспрымання. Незалежна ад узроўня якасці і бітрэйту прымяняюцца для кадавання і дэкадавання мадэлі адрозніваюцца досыць сціплымі патрабаваннямі да рэсурсаў (вылічэнні, неабходныя для працы ў рэжыме рэальнага часу, вырабляюцца на адным ядры CPU).

Facebook апублікаваў гукавы кодэк EnCodec, які выкарыстоўвае машыннае навучанне


Крыніца: opennet.ru

Дадаць каментар