Facebook nerbitake codec audio EnCodec nggunakake pembelajaran mesin

Meta/Facebook (dilarang ing Federasi Rusia) ngenalake codec audio anyar, EnCodec, sing nggunakake metode pembelajaran mesin kanggo nambah rasio kompresi tanpa kelangan kualitas. Codec bisa digunakake kanggo streaming audio ing wektu nyata lan kanggo enkoding kanggo mengko disimpen ing file. Implementasi referensi EnCodec ditulis nganggo Python nggunakake kerangka PyTorch lan dilisensi ing lisensi CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) mung kanggo panggunaan non-komersial.

Rong model siap ditawakake kanggo diundhuh:

  • Model kausal nggunakake tingkat sampling 24 kHz, mung ndhukung audio monophonic, lan dilatih ing macem-macem data audio (cocog kanggo kode wicara). Model kasebut bisa digunakake kanggo paket data audio kanggo transmisi kanthi tingkat bit 1.5, 3, 6, 12 lan 24 kbps.
  • Model non-kausal nggunakake tingkat sampling 48 kHz, ndhukung audio stereo lan dilatih mung ing musik. Model ndhukung bitrate 3, 6, 12 lan 24 kbps.

Kanggo saben model, model basa tambahan wis disiapake, sing ngidini sampeyan entuk peningkatan rasio kompresi sing signifikan (nganti 40%) tanpa mundhut kualitas. Ora kaya proyek sing wis dikembangake sadurunge nggunakake metode pembelajaran mesin kanggo kompresi audio, EnCodec bisa digunakake ora mung kanggo kemasan ucapan, nanging uga kanggo kompresi musik kanthi tingkat sampling 48 kHz, sing cocog karo level CD audio. Miturut pangembang codec anyar, nalika ngirim kanthi bitrate 64 kbps dibandhingake karo format MP3, padha bisa nambah tingkat kompresi audio kira-kira kaping sepuluh nalika njaga tingkat kualitas sing padha (contone, nalika nggunakake. MP3, bandwidth 64 kbps dibutuhake, kanggo transmisi kanthi kualitas sing padha ing EnCodec cukup 6 kbps).

Arsitèktur codec dibangun ing jaringan saraf kanthi arsitektur "transformer" lan adhedhasar papat pranala: encoder, quantizer, decoder lan discriminator. Encoder ngekstrak paramèter data swara lan ngowahi stream sing dikemas dadi tingkat pigura sing luwih murah. Quantizer (RVQ, Residual Vector Quantizer) ngowahi output stream dening encoder menyang set paket, informasi kompres adhedhasar bitrate sing dipilih. Output saka quantizer minangka perwakilan data sing dikompres, cocok kanggo transmisi liwat jaringan utawa disimpen menyang disk.

Dekoder decode representasi data sing dikompres lan mbangun maneh gelombang swara asli. Diskriminator ningkatake kualitas sampel sing diasilake, kanthi njupuk model persepsi pendengaran manungsa. Preduli saka tingkat kualitas lan bitrate, model sing digunakake kanggo enkoding lan dekoding dibedakake dening syarat sumber cukup andhap asor (petungan perlu kanggo operasi nyata-wektu dileksanakake ing inti CPU siji).

Facebook nerbitake codec audio EnCodec nggunakake pembelajaran mesin


Source: opennet.ru

Add a comment