Mae Facebook yn cyhoeddi codec sain EnCodec gan ddefnyddio dysgu peirianyddol

Cyflwynodd Meta/Facebook (a waharddwyd yn Ffederasiwn Rwsia) godec sain newydd, EnCodec, sy'n defnyddio dulliau dysgu peirianyddol i gynyddu'r gymhareb gywasgu heb golli ansawdd. Gellir defnyddio'r codec ar gyfer ffrydio sain mewn amser real ac ar gyfer amgodio ar gyfer arbed ffeiliau yn ddiweddarach. Mae gweithrediad cyfeirnod EnCodec wedi'i ysgrifennu yn Python gan ddefnyddio fframwaith PyTorch ac mae wedi'i drwyddedu o dan drwydded CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) ar gyfer defnydd anfasnachol yn unig.

Cynigir dau fodel parod i'w lawrlwytho:

  • Model achosol sy'n defnyddio cyfradd samplu 24 kHz, yn cefnogi sain monoffonig yn unig, ac wedi'i hyfforddi ar ddata sain amrywiol (addas ar gyfer codio lleferydd). Gellir defnyddio'r model i becynnu data sain i'w drosglwyddo ar gyfraddau didau o 1.5, 3, 6, 12 a 24 kbps.
  • Model nad yw'n achosol sy'n defnyddio cyfradd samplu o 48 kHz, yn cefnogi sain stereo ac wedi'i hyfforddi ar gerddoriaeth yn unig. Mae'r model yn cefnogi bitrates o 3, 6, 12 a 24 kbps.

Ar gyfer pob model, mae model iaith ychwanegol wedi'i baratoi, sy'n eich galluogi i gyflawni cynnydd sylweddol yn y gymhareb cywasgu (hyd at 40%) heb golli ansawdd. Yn wahanol i brosiectau a ddatblygwyd yn flaenorol gan ddefnyddio dulliau dysgu peiriant ar gyfer cywasgu sain, gellir defnyddio EnCodec nid yn unig ar gyfer pecynnu lleferydd, ond hefyd ar gyfer cywasgu cerddoriaeth gyda chyfradd samplu o 48 kHz, sy'n cyfateb i lefel y CD sain. Yn ôl datblygwyr y codec newydd, wrth drosglwyddo gyda bitrate o 64 kbps o'i gymharu â fformat MP3, roeddent yn gallu cynyddu graddau cywasgu sain tua deg gwaith tra'n cynnal yr un lefel o ansawdd (er enghraifft, wrth ddefnyddio MP3, mae angen lled band o 64 kbps, i'w drosglwyddo gyda'r un ansawdd yn EnCodec yn ddigon 6 kbps).

Mae'r bensaernïaeth codec wedi'i hadeiladu ar rwydwaith niwral gyda phensaernïaeth “trawsnewidydd” ac mae'n seiliedig ar bedwar dolen: amgodiwr, meintiolwr, datgodiwr a gwahaniaethwr. Mae'r amgodiwr yn echdynnu paramedrau'r data llais ac yn trosi'r ffrwd wedi'i bacio i gyfradd ffrâm is. Mae'r mesurwr (RVQ, Quantizer Vector Residual) yn trosi allbwn y ffrwd gan yr amgodiwr yn setiau o becynnau, gan gywasgu gwybodaeth yn seiliedig ar y gyfradd didau a ddewiswyd. Mae allbwn y meintydd yn gynrychiolaeth gywasgedig o'r data, sy'n addas i'w drosglwyddo dros rwydwaith neu ei arbed ar ddisg.

Mae'r datgodydd yn dadgodio cynrychiolaeth gywasgedig y data ac yn ail-greu'r don sain wreiddiol. Mae'r gwahaniaethwr yn gwella ansawdd y samplau a gynhyrchir, gan ystyried y model canfyddiad clywedol dynol. Waeth beth fo lefel yr ansawdd a'r bitrate, mae'r modelau a ddefnyddir ar gyfer amgodio a datgodio yn cael eu gwahaniaethu gan ofynion adnoddau gweddol gymedrol (mae'r cyfrifiadau sy'n angenrheidiol ar gyfer gweithredu amser real yn cael eu perfformio ar un craidd CPU).

Mae Facebook yn cyhoeddi codec sain EnCodec gan ddefnyddio dysgu peirianyddol


Ffynhonnell: opennet.ru

Ychwanegu sylw