Facebook publikigas EnCodec sonkodekon uzante maŝinlernadon

Meta/Facebook (malpermesita en la Rusa Federacio) lanĉis novan sonkodekon, EnCodec, kiu uzas maŝinlernajn metodojn por pliigi la kunpremadon sen perdi kvaliton. La kodeko povas esti uzata kaj por fluado de audio en reala tempo kaj por kodigo por poste konservi en dosieroj. La referenca efektivigo de EnCodec estas skribita en Python uzante la kadron PyTorch kaj estas licencita laŭ CC BY-NC 4.0 (Creative Commons Atribuite-Nekomerca) permesilo por nekomerca uzo nur.

Du pretaj modeloj estas ofertitaj por elŝuti:

  • Kaŭza modelo uzanta 24 kHz-specimenfrekvencon, apogante nur monofonan aŭdion, kaj trejnita sur diversaj sondatenoj (taŭga por parolkodado). La modelo povas esti uzata por paki sondatenojn por dissendo je pecetrapidecoj de 1.5, 3, 6, 12 kaj 24 kbps.
  • Ne-kaŭza modelo uzanta specimenan indicon de 48 kHz, apogante stereofonian aŭdion kaj trejnita nur pri muziko. La modelo subtenas bitratecojn de 3, 6, 12 kaj 24 kbps.

Por ĉiu modelo, aldona lingvomodelo estis preparita, kiu ebligas al vi atingi signifan pliigon de la kunprema proporcio (ĝis 40%) sen perdo de kvalito. Male al antaŭe evoluintaj projektoj uzantaj maŝinlernajn metodojn por aŭdkunpremo, EnCodec povas esti uzata ne nur por parolpakado, sed ankaŭ por muzikkunpremado kun specimena indico de 48 kHz, egalrilatante al la nivelo de son-KD-oj. Laŭ la programistoj de la nova kodeko, dum transsendo kun bitrapideco de 64 kbps kompare kun la formato MP3, ili povis pliigi la gradon de aŭdkunpremo proksimume dek fojojn konservante la saman nivelon de kvalito (ekzemple, kiam ili uzas MP3, bendolarĝo de 64 kbps estas bezonata, por transsendo kun tio la sama kvalito en EnCodec sufiĉas 6 kbps).

La kodeka arkitekturo estas konstruita sur neŭrala reto kun "transformilo" arkitekturo kaj estas bazita sur kvar ligiloj: kodigilo, kvantigilo, malĉifrilo kaj diskriminatoro. La kodilo ĉerpas la parametrojn de la voĉaj datumoj kaj konvertas la plenplenan fluon al pli malalta framfrekvenco. La kvantigilo (RVQ, Residual Vector Quantizer) konvertas la fluoproduktaĵon de la kodigilo en arojn de pakaĵetoj, kunpremante informojn bazitajn sur la elektita bitrapideco. La produktaĵo de la kvantigilo estas kunpremita reprezentado de la datenoj, taŭga por dissendo tra reto aŭ ŝparado al disko.

La malĉifrilo malĉifras la kunpremitan reprezentadon de la datenoj kaj rekonstruas la originan sonondon. La diskriminanto plibonigas la kvaliton de la generitaj provaĵoj, konsiderante la modelon de homa aŭda percepto. Sendepende de la nivelo de kvalito kaj bitrapideco, la modeloj uzataj por kodigo kaj malkodado estas distingitaj per sufiĉe modestaj rimedpostuloj (kalkuloj necesaj por realtempa operacio estas faritaj sur ununura CPU-kerno).

Facebook publikigas EnCodec sonkodekon uzante maŝinlernadon


fonto: opennet.ru

Aldoni komenton