Gipatik sa Facebook ang EnCodec audio codec gamit ang pagkat-on sa makina

Ang Meta/Facebook (gidili sa Russian Federation) nagpaila sa usa ka bag-ong audio codec, EnCodec, nga naggamit sa mga pamaagi sa pagkat-on sa makina aron madugangan ang compression ratio nga dili mawala ang kalidad. Ang codec mahimong magamit alang sa streaming audio sa tinuud nga oras ug alang sa pag-encode para sa ulahi nga pagtipig sa mga file. Ang pagpatuman sa EnCodec reference gisulat sa Python gamit ang PyTorch framework ug lisensyado ubos sa CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) nga lisensya para sa dili pangkomersyal nga paggamit lamang.

Duha ka andam nga mga modelo ang gitanyag aron ma-download:

  • Usa ka causal model nga naggamit ug 24 kHz sampling rate, nagsuporta lamang sa monophonic audio, ug gibansay sa lain-laing audio data (angay sa speech coding). Ang modelo mahimong gamiton sa pakete sa audio data alang sa transmission sa bit rates sa 1.5, 3, 6, 12 ug 24 kbps.
  • Usa ka non-causal nga modelo nga naggamit sa sampling rate nga 48 kHz, nagsuporta sa stereo audio ug gibansay lamang sa musika. Ang modelo nagsuporta sa bitrates sa 3, 6, 12 ug 24 kbps.

Alang sa matag modelo, usa ka dugang nga modelo sa pinulongan ang giandam, nga nagtugot kanimo sa pagkab-ot sa usa ka mahinungdanon nga pagtaas sa compression ratio (hangtod sa 40%) nga walay pagkawala sa kalidad. Dili sama sa kaniadto naugmad nga mga proyekto gamit ang mga pamaagi sa pagkat-on sa makina alang sa audio compression, ang EnCodec mahimong gamiton dili lamang alang sa speech packaging, kondili alang usab sa music compression nga adunay sampling rate nga 48 kHz, nga katumbas sa lebel sa audio CDs. Sumala sa mga developers sa bag-ong codec, sa diha nga ang pagpadala sa usa ka bitrate sa 64 kbps kumpara sa MP3 format, sila nakahimo sa pagdugang sa ang-ang sa audio compression sa gibana-bana nga napulo ka mga panahon samtang nagmintinar sa sama nga lebel sa kalidad (pananglitan, sa diha nga ang paggamit sa. MP3, gikinahanglan ang bandwidth nga 64 kbps, para sa transmission nga ang parehas nga kalidad sa EnCodec igo na 6 kbps).

Ang arkitektura sa codec gitukod sa usa ka neural network nga adunay "transformer" nga arkitektura ug gibase sa upat ka mga link: encoder, quantizer, decoder ug discriminator. Gikuha sa encoder ang mga parameter sa data sa tingog ug gi-convert ang naka-pack nga sapa ngadto sa mas ubos nga frame rate. Ang quantizer (RVQ, Residual Vector Quantizer) nag-convert sa stream output sa encoder ngadto sa mga set sa mga packet, nag-compress sa impormasyon base sa pinili nga bitrate. Ang output sa quantizer usa ka compressed representation sa data, nga angay alang sa transmission sa usa ka network o pag-save sa disk.

Ang decoder nag-decode sa compressed nga representasyon sa datos ug nagtukod pag-usab sa orihinal nga sound wave. Gipauswag sa diskriminador ang kalidad sa mga nahimo nga sample, nga gikonsiderar ang modelo sa pandungog sa pandungog sa tawo. Bisan unsa pa ang lebel sa kalidad ug bitrate, ang mga modelo nga gigamit alang sa pag-encode ug pag-decode gipalahi sa medyo kasarangan nga mga kinahanglanon sa kapanguhaan (mga kalkulasyon nga gikinahanglan alang sa tinuod nga oras nga operasyon gihimo sa usa ka core sa CPU).

Gipatik sa Facebook ang EnCodec audio codec gamit ang pagkat-on sa makina


Source: opennet.ru

Idugang sa usa ka comment