Facebook nerbitkeun codec audio EnCodec nganggo pembelajaran mesin

Meta/Facebook (dilarang di Féderasi Rusia) ngenalkeun codec audio énggal, EnCodec, anu ngagunakeun metode pembelajaran mesin pikeun ningkatkeun rasio komprési tanpa kaleungitan kualitas. Codec bisa dipaké duanana keur ngalirkeun data audio sacara real waktu jeung encoding pikeun engké nyimpen dina file. Palaksanaan rujukan EnCodec ditulis dina Python ngagunakeun kerangka PyTorch sarta dilisensikeun ku CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) lisénsi pikeun pamakéan non-komersial wungkul.

Dua model siap-siap ditawarkeun pikeun diunduh:

  • Modél kausal ngagunakeun laju sampling 24 kHz, ngan ngarojong audio monophonic, sarta dilatih dina data audio rupa-rupa (cocog pikeun coding ucapan). Modél ieu tiasa dianggo pikeun ngarangkep data audio kanggo pangiriman dina laju bit 1.5, 3, 6, 12 sareng 24 kbps.
  • Modél non-kausal ngagunakeun laju sampling 48 kHz, ngarojong audio stereo jeung dilatih ngan dina musik. Model ngadukung bitrates 3, 6, 12 sareng 24 kbps.

Pikeun unggal modél, modél basa tambahan parantos disiapkeun, anu ngamungkinkeun anjeun ngahontal kanaékan anu signifikan dina rasio komprési (dugi ka 40%) tanpa kaleungitan kualitas. Beda sareng proyék-proyék anu dikembangkeun sateuacana nganggo metode pembelajaran mesin pikeun komprési audio, EnCodec tiasa dianggo sanés ngan ukur pikeun bungkusan ucapan, tapi ogé pikeun komprési musik kalayan laju sampling 48 kHz, saluyu sareng tingkat CD audio. Numutkeun pamekar codec anyar, nalika ngirimkeun bitrate 64 kbps dibandingkeun sareng format MP3, aranjeunna tiasa ningkatkeun darajat komprési audio sakitar sapuluh kali bari ngajaga tingkat kualitas anu sami (contona, nalika nganggo. MP3, rubakpita 64 kbps diperlukeun, pikeun transmisi jeung kualitas sarua dina EnCodec cukup 6 kbps).

Arsitéktur codec diwangun dina jaringan saraf sareng arsitéktur "trafo" sareng dumasar kana opat tautan: encoder, quantizer, decoder sareng discriminator. Encoder ngaékstrak parameter data sora sareng ngarobih aliran anu dipak kana laju pigura anu langkung handap. The quantizer (RVQ, Residual Vector Quantizer) ngarobah kaluaran stream ku encoder kana susunan pakét, compressing informasi dumasar kana bitrate nu dipilih. Kaluaran tina quantizer mangrupikeun representasi data anu dikomprés, cocog pikeun pangiriman ngaliwatan jaringan atanapi disimpen kana disk.

Dekoder ngadékodekeun répréséntasi data anu dikomprés sareng ngawangun deui gelombang sora asli. Diskriminator ngaronjatkeun kualitas sampel dihasilkeun, nyokot kana akun model persepsi auditory manusa. Henteu paduli tingkat kualitas sareng bitrate, modél anu dianggo pikeun encoding sareng decoding dibédakeun ku syarat sumberdaya anu rada sederhana (itungan anu dipikabutuh pikeun operasi sacara real-time dilaksanakeun dina inti CPU tunggal).

Facebook nerbitkeun codec audio EnCodec nganggo pembelajaran mesin


sumber: opennet.ru

Tambahkeun komentar