Facebook-ek EnCodec audio-kodeka argitaratzen du ikaskuntza automatikoa erabiliz

Meta/Facebook-ek (Errusiar Federazioan debekatua) audio-kodeka berria aurkeztu zuen, EnCodec, ikaskuntza automatikoko metodoak erabiltzen dituena konpresio-erlazioa handitzeko kalitatea galdu gabe. Kodeka audioa denbora errealean erreproduzitzeko eta gero fitxategietan gordetzeko kodetzeko erabil daiteke. EnCodec erreferentzia-inplementazioa Python-en idatzita dago PyTorch esparrua erabiliz eta CC BY-NC 4.0 (Creative Commons Aitortu-EzKomertziala) lizentziapean dago erabilera ez-komertzialerako soilik.

Deskargatzeko prest dauden bi modelo eskaintzen dira:

  • Eredu kausala 24 kHz-ko laginketa-tasa erabiltzen duena, audio monofonikoa soilik onartzen duena eta audio-datu anitzetan trebatua (hizketa kodetzeko egokia). Eredua audio datuak 1.5, 3, 6, 12 eta 24 kbps-ko bit-abiaduran transmisiorako paketatzeko erabil daiteke.
  • Kausazkoa ez den eredua 48 kHz-ko laginketa-tasa erabiltzen duena, audio estereoa onartzen duena eta musikan soilik trebatua. Modeloak 3, 6, 12 eta 24 kbps-ko bit-abiadura onartzen du.

Eredu bakoitzerako, hizkuntza-eredu gehigarri bat prestatu da, eta horri esker, konpresio-erlazioaren igoera nabarmena (% 40 arte), kalitatea galdu gabe. Audio-konpresiorako ikaskuntza-metodoak erabiltzen dituzten aurrez garatutako proiektuetan ez bezala, EnCodec hizkera biltzeko ez ezik, musika-konpresiorako ere erabil daiteke 48 kHz-ko laginketa-abiadurarekin, audio CDen mailari dagokiona. Kodec berriaren garatzaileen arabera, 64 kbps-ko bit-abiadurarekin transmititzean MP3 formatuarekin alderatuta, gutxi gorabehera hamar aldiz handitu ahal izan zuten audio-konpresio-maila kalitate-maila bera mantenduz (adibidez, erabiltzean. MP3, 64 kbps-ko banda zabalera behar da, transmisio horrekin EnCodec-en kalitate bera nahikoa da 6 kbps).

Kodeka-arkitektura "transformadore" arkitektura duen neurona-sare batean eraikita dago eta lau loturetan oinarritzen da: kodetzailea, kuantifikatzailea, deskodetzailea eta diskriminatzailea. Kodetzaileak ahotsaren datuen parametroak erauzten ditu eta bildutako korrontea fotograma-tasa txikiagoa bihurtzen du. Kuantizatzaileak (RVQ, Residual Vector Quantizer) kodegailuaren korrontearen irteera pakete multzotan bihurtzen du, aukeratutako bit-abiaduran oinarritutako informazioa konprimituz. Kuantizatzailearen irteera datuen irudikapen konprimitua da, sare baten bidez transmititzeko edo diskoan gordetzeko egokia.

Deskodetzaileak datuen irudikapen konprimitua deskodetzen du eta jatorrizko soinu-uhina berreraikitzen du. Diskriminatzaileak sortutako laginen kalitatea hobetzen du, giza entzumen-pertzepzioaren eredua kontuan hartuta. Kalitate eta bit-tasa edozein dela ere, kodetzeko eta deskodetzeko erabiltzen diren ereduak baliabide eskakizun xumeengatik bereizten dira (denbora errealean funtzionatzeko beharrezkoak diren kalkuluak CPU nukleo bakarrean egiten dira).

Facebook-ek EnCodec audio-kodeka argitaratzen du ikaskuntza automatikoa erabiliz


Iturria: opennet.ru

Gehitu iruzkin berria