Facebook publisearret EnCodec audio codec mei masine learen

Meta/Facebook (ferbean yn 'e Russyske Federaasje) yntrodusearre in nije audio codec, EnCodec, dy't masine learmetoaden brûkt om de kompresjeferhâlding te ferheegjen sûnder kwaliteit te ferliezen. De codec kin sawol brûkt wurde foar it streamen fan audio yn realtime as foar kodearring foar letter opslaan yn bestannen. De EnCodec-referinsje-ymplemintaasje is skreaun yn Python mei it PyTorch-ramt en is lisinsje ûnder in CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) lisinsje foar allinich net-kommersjeel gebrûk.

Twa ready-made modellen wurde oanbean foar download:

  • In kausaal model mei in samplingrate fan 24 kHz, dy't allinich monofoanyske audio stipet, en oplaat op ferskate audiogegevens (geskikt foar spraakkodearring). It model kin brûkt wurde om audiogegevens te pakken foar oerdracht mei bitraten fan 1.5, 3, 6, 12 en 24 kbps.
  • In net-kausaal model mei in samplingrate fan 48 kHz, stipet stereo-audio en traint allinich op muzyk. It model stipet bitrates fan 3, 6, 12 en 24 kbps.

Foar elk model is in ekstra taalmodel taret, wêrtroch jo in signifikante ferheging fan 'e kompresjeferhâlding (oant 40%) kinne berikke sûnder kwaliteitsferlies. Oars as earder ûntwikkele projekten mei masine-learmetoaden foar audiokompresje, kin EnCodec net allinich brûkt wurde foar spraakferpakking, mar ek foar muzykkompresje mei in samplingrate fan 48 kHz, oerienkommende mei it nivo fan audio-cd's. Neffens de ûntwikkelders fan 'e nije codec, by it útstjoeren mei in bitrate fan 64 kbps yn ferliking mei it MP3-formaat, koene se de mjitte fan audiokompresje mei sawat tsien kear ferheegje, wylst se itselde nivo fan kwaliteit behâlde (bygelyks by it brûken fan MP3, in bânbreedte fan 64 kbps is nedich, foar oerdracht mei dat deselde kwaliteit yn EnCodec is genôch 6 kbps).

De codec-arsjitektuer is boud op in neural netwurk mei in "transformator"-arsjitektuer en is basearre op fjouwer keppelings: encoder, quantizer, decoder en discriminator. De encoder ekstrahearret de parameters fan 'e stimgegevens en konvertearret de ynpakte stream nei in legere framerate. De kwantizer (RVQ, Residual Vector Quantizer) konvertearret de streamútfier troch de kodearder yn sets fan pakketten, en komprimearret ynformaasje basearre op 'e selekteare bitrate. De útfier fan 'e kwantizer is in komprimearre fertsjintwurdiging fan' e gegevens, geskikt foar oerdracht oer in netwurk of opslaan op skiif.

De dekoder dekodearret de komprimearre fertsjintwurdiging fan de gegevens en rekonstruearret de orizjinele lûdsweach. De diskriminator ferbettert de kwaliteit fan 'e generearre samples, rekken hâldend mei it model fan minsklike auditive waarnimming. Nettsjinsteande it nivo fan kwaliteit en bitrate, de modellen brûkt foar kodearring en dekodearjen wurde ûnderskieden troch frij beskieden boarne easken (berekkeningen nedich foar real-time operaasje wurde útfierd op ien CPU kearn).

Facebook publisearret EnCodec audio codec mei masine learen


Boarne: opennet.ru

Add a comment