Facebook publiseer EnCodec oudio-kodek deur masjienleer te gebruik

Meta/Facebook (verbied in die Russiese Federasie) het 'n nuwe oudio-kodek, EnCodec, bekendgestel wat masjienleermetodes gebruik om die kompressieverhouding te verhoog sonder om kwaliteit te verloor. Die kodek kan beide gebruik word vir die stroom van klank in reële tyd en vir enkodering om later in lêers te stoor. Die EnCodec-verwysingsimplementering is in Python geskryf deur die PyTorch-raamwerk te gebruik en is gelisensieer onder 'n CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) lisensie vir slegs nie-kommersiële gebruik.

Twee klaargemaakte modelle word aangebied vir aflaai:

  • 'n Oorsaaklike model wat 'n steekproeftempo van 24 kHz gebruik, slegs monofoniese oudio ondersteun en opgelei word op diverse oudiodata (geskik vir spraakkodering). Die model kan gebruik word om oudiodata te verpak vir oordrag teen bistempo's van 1.5, 3, 6, 12 en 24 kbps.
  • 'n Nie-oorsaaklike model wat 'n steekproeftempo van 48 kHz gebruik, wat stereo klank ondersteun en slegs op musiek opgelei is. Die model ondersteun bitrate van 3, 6, 12 en 24 kbps.

Vir elke model is 'n addisionele taalmodel voorberei, waarmee u 'n aansienlike toename in die kompressieverhouding (tot 40%) kan behaal sonder om kwaliteit te verloor. Anders as voorheen ontwikkelde projekte wat masjienleermetodes vir oudio-kompressie gebruik, kan EnCodec nie net vir spraakverpakking gebruik word nie, maar ook vir musiekkompressie met 'n steekproeftempo van 48 kHz, wat ooreenstem met die vlak van oudio-CD's. Volgens die ontwikkelaars van die nuwe kodek kon hulle, wanneer hulle met 'n bitsnelheid van 64 kbps versend in vergelyking met die MP3-formaat, die mate van klankkompressie met ongeveer tien keer verhoog terwyl hulle dieselfde vlak van kwaliteit handhaaf (byvoorbeeld wanneer hulle gebruik word MP3, 'n bandwydte van 64 kbps word vereis, vir transmissie met daardie dieselfde kwaliteit in EnCodec is genoeg 6 kbps).

Die kodek-argitektuur is gebou op 'n neurale netwerk met 'n "transformator"-argitektuur en is gebaseer op vier skakels: enkodeerder, kwantiseerder, dekodeerder en diskrimineerder. Die enkodeerder onttrek die parameters van die stemdata en skakel die gepakte stroom om na 'n laer raamtempo. Die kwantiseerder (RVQ, Residual Vector Quantizer) skakel die stroomuitset deur die enkodeerder om in stelle pakkies, en komprimeer inligting gebaseer op die geselekteerde bitsnelheid. Die uitset van die kwantiseerder is 'n saamgeperste voorstelling van die data, geskik vir oordrag oor 'n netwerk of stoor op skyf.

Die dekodeerder dekodeer die saamgeperste voorstelling van die data en rekonstrueer die oorspronklike klankgolf. Die diskrimineerder verbeter die kwaliteit van die gegenereerde monsters, met inagneming van die model van menslike ouditiewe persepsie. Ongeag die vlak van kwaliteit en bitsnelheid, word die modelle wat vir enkodering en dekodering gebruik word, onderskei deur taamlik beskeie hulpbronvereistes (berekeninge wat nodig is vir intydse werking word op 'n enkele SVE-kern uitgevoer).

Facebook publiseer EnCodec oudio-kodek deur masjienleer te gebruik


Bron: opennet.ru

Voeg 'n opmerking