Facebook avaldab masinõppe abil EnCodeci helikodeki

Meta/Facebook (Vene Föderatsioonis keelatud) tutvustas uut helikodekit EnCodec, mis kasutab masinõppe meetodeid tihendusastme suurendamiseks ilma kvaliteeti kaotamata. Kodekit saab kasutada nii heli reaalajas voogedastamiseks kui ka hilisemaks failidesse salvestamiseks kodeerimiseks. EnCodeci viiterakendus on kirjutatud Pythonis, kasutades PyTorchi raamistikku ja on litsentsitud CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) litsentsi alusel ainult mitteäriliseks kasutamiseks.

Allalaadimiseks pakutakse kahte valmis mudelit:

  • Põhjuslik mudel, mis kasutab 24 kHz diskreetimissagedust, toetab ainult monofoonilist heli ja on treenitud erinevatele heliandmetele (sobib kõne kodeerimiseks). Mudelit saab kasutada heliandmete pakkimiseks edastamiseks bitikiirusega 1.5, 3, 6, 12 ja 24 kbps.
  • Mittepõhjuslik mudel, mis kasutab diskreetimissagedust 48 kHz, toetab stereoheli ja on treenitud ainult muusikale. Mudel toetab bitikiirust 3, 6, 12 ja 24 kbps.

Iga mudeli jaoks on koostatud täiendav keelemudel, mis võimaldab saavutada märkimisväärset tihendusastme tõusu (kuni 40%) ilma kvaliteeti kaotamata. Erinevalt varem välja töötatud projektidest, mis kasutavad heli tihendamiseks masinõppe meetodeid, saab EnCodeci kasutada mitte ainult kõne pakendamiseks, vaid ka muusika tihendamiseks diskreetimissagedusega 48 kHz, mis vastab heli-CD-de tasemele. Uue koodeki arendajate sõnul suutsid nad MP64-vorminguga võrreldes bitikiirusega 3 kbps edastades heli tihendusastet umbes kümme korda tõsta, säilitades samal ajal sama kvaliteedi (näiteks kasutades MP3, on vajalik ribalaius 64 kbps, sama kvaliteediga edastamiseks EnCodecis piisab 6 kbps).

Koodekarhitektuur on üles ehitatud "trafo" arhitektuuriga närvivõrgule ja põhineb neljal lingil: kodeerija, kvantiseerija, dekooder ja diskriminaator. Kodeerija eraldab kõneandmete parameetrid ja teisendab pakitud voo madalamaks kaadrisageduseks. Kvantimisseade (RVQ, Residual Vector Quantizer) teisendab koodri väljundi pakettide komplektideks, tihendades teavet valitud bitikiiruse alusel. Kvantiseerija väljund on andmete tihendatud esitus, mis sobib üle võrgu edastamiseks või kettale salvestamiseks.

Dekooder dekodeerib andmete tihendatud esituse ja rekonstrueerib algse helilaine. Diskriminaator parandab genereeritud proovide kvaliteeti, võttes arvesse inimese kuulmistaju mudelit. Olenemata kvaliteeditasemest ja bitikiirusest eristuvad kodeerimiseks ja dekodeerimiseks kasutatavad mudelid üsna tagasihoidlike ressursivajadustega (reaalajas tööks vajalikud arvutused tehakse ühel CPU tuumal).

Facebook avaldab masinõppe abil EnCodeci helikodeki


Allikas: opennet.ru

Lisa kommentaar