Facebook gefur út EnCodec hljóðmerkjamál með því að nota vélanám

Meta/Facebook (bannað í Rússlandi) kynnti nýjan hljóðmerkjakóða, EnCodec, sem notar vélanámsaðferðir til að auka þjöppunarhlutfallið án þess að tapa gæðum. Merkjamálið er bæði hægt að nota til að streyma hljóði í rauntíma og til að kóða til að vista í skrám síðar. EnCodec tilvísunarútfærslan er skrifuð í Python með PyTorch ramma og er með leyfi samkvæmt CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) leyfi eingöngu til notkunar sem ekki er í viðskiptalegum tilgangi.

Boðið er upp á tvær tilbúnar gerðir til niðurhals:

  • Orsakalíkan sem notar 24 kHz sýnatökuhraða, styður aðeins einradda hljóð og er þjálfað á fjölbreyttum hljóðgögnum (hentar fyrir talkóðun). Líkanið er hægt að nota til að pakka hljóðgögnum fyrir sendingu á bitahraða 1.5, 3, 6, 12 og 24 kbps.
  • Líkan án orsakavalds sem notar sýnatökuhraða 48 kHz, styður steríóhljóð og er aðeins þjálfað í tónlist. Líkanið styður bitahraða 3, 6, 12 og 24 kbps.

Fyrir hvert líkan hefur verið útbúið viðbótar tungumálalíkan sem gerir þér kleift að ná umtalsverðri aukningu á þjöppunarhlutfalli (allt að 40%) án þess að tapa gæðum. Ólíkt áður þróuðum verkefnum sem nota vélanámsaðferðir fyrir hljóðþjöppun, er ekki aðeins hægt að nota EnCodec fyrir talpökkun heldur einnig fyrir tónlistarþjöppun með sýnatökuhraða 48 kHz, sem samsvarar magni hljóðgeisladiska. Samkvæmt þróunaraðilum nýja merkjamálsins, þegar þeir sendu með 64 kbps bitahraða miðað við MP3 sniðið, gátu þeir aukið hljóðþjöppunina um það bil tífalt á meðan þeir héldu sama gæðum (til dæmis þegar þeir voru notaðir MP3, bandbreidd upp á 64 kbps þarf, fyrir sendingu með því eru sömu gæði í EnCodec nóg 6 kbps).

Merkjamál arkitektúrinn er byggður á tauganeti með „transformer“ arkitektúr og byggist á fjórum tenglum: kóðara, magnmælir, afkóðara og mismuna. Kóðarinn dregur út færibreytur raddgagnanna og breytir pakkaðri straumnum í lægri rammatíðni. Mælingartækið (RVQ, Residual Vector Quantizer) breytir straumsúttakinu með kóðara í pakkasett og þjappar saman upplýsingum út frá völdum bitahraða. Úttak magnmælans er þjappuð framsetning gagna, hentug til flutnings um netkerfi eða vistun á disk.

Afkóðarinn afkóðar þjappaða framsetningu gagnanna og endurgerir upprunalegu hljóðbylgjuna. Mismununartækið bætir gæði sýnanna sem myndast, að teknu tilliti til líkansins af heyrnarskynjun manna. Burtséð frá gæðum og bitahraða, eru líkönin sem notuð eru við kóðun og umskráningu aðgreind með frekar hóflegum kröfum um auðlind (útreikningar sem nauðsynlegir eru fyrir rauntímaaðgerðir eru gerðar á einum CPU kjarna).

Facebook gefur út EnCodec hljóðmerkjamál með því að nota vélanám


Heimild: opennet.ru

Bæta við athugasemd