Facebook нь машин сургалтыг ашиглан EnCodec аудио кодлогчийг нийтэлдэг

Meta/Facebook (ОХУ-д хориглосон) шинэ аудио кодлогч EnCodec-ийг нэвтрүүлсэн бөгөөд энэ нь чанарыг алдагдуулахгүйгээр шахалтын харьцааг нэмэгдүүлэхийн тулд машин сургалтын аргыг ашигладаг. Энэ кодлогчийг аудиог бодит цаг хугацаанд дамжуулах, дараа нь файлд хадгалах кодчилол хийхэд ашиглаж болно. EnCodec лавлагааны хэрэгжилт нь PyTorch хүрээг ашиглан Python хэл дээр бичигдсэн бөгөөд зөвхөн арилжааны бус зорилгоор CC BY-NC 4.0 (Creative Commons Attribution-Commercial) лицензийн дагуу лицензтэй.

Хоёр бэлэн загварыг татаж авахыг санал болгож байна:

  • 24 кГц түүвэрлэлтийн хурдыг ашигладаг, зөвхөн монофон аудиог дэмждэг, олон төрлийн аудио өгөгдөл дээр сургагдсан (ярианы кодчилолд тохиромжтой) учир шалтгааны загвар. Уг загварыг 1.5, 3, 6, 12, 24 kbps битийн хурдаар дамжуулах аудио өгөгдлийг багцлахад ашиглаж болно.
  • 48 кГц-ийн түүврийн давтамжийг ашигладаг, стерео аудиог дэмждэг, зөвхөн хөгжим дээр сургагдсан шалтгаангүй загвар. Энэхүү загвар нь 3, 6, 12, 24 kbps бит хурдыг дэмждэг.

Загвар бүрийн хувьд нэмэлт хэлний загварыг бэлтгэсэн бөгөөд энэ нь чанарыг алдалгүйгээр шахалтын харьцааг (40% хүртэл) мэдэгдэхүйц нэмэгдүүлэх боломжийг олгодог. Дууг шахах машин сургалтын аргуудыг ашиглан өмнө нь боловсруулсан төслүүдээс ялгаатай нь EnCodec нь зөвхөн ярианы багцад төдийгүй аудио CD-ийн түвшинд тохирсон 48 кГц давтамжтай хөгжим шахахад ашиглаж болно. Шинэ кодлогчийг хөгжүүлэгчдийн үзэж байгаагаар MP64 форматтай харьцуулахад 3 кбит / бит хурдтай дамжуулахдаа тэд ижил чанарын түвшинг хадгалахын зэрэгцээ аудио шахалтын түвшинг ойролцоогоор арав дахин нэмэгдүүлэх боломжтой болсон (жишээлбэл, ашиглах үед). MP3, 64 kbps-ийн зурвасын өргөн шаардлагатай бөгөөд EnCodec дээр ижил чанартай дамжуулахад 6 kbps хангалттай).

Кодекийн архитектур нь "трансформатор" архитектур бүхий мэдрэлийн сүлжээнд баригдсан бөгөөд кодлогч, квантизатор, декодер, ялгагч гэсэн дөрвөн холбоос дээр суурилдаг. Кодер нь дуут өгөгдлийн параметрүүдийг задалж, багцалсан урсгалыг бага фрэймийн хурд болгон хувиргадаг. Квантжуулагч (RVQ, Үлдэгдэл вектор квантизатор) нь кодлогчийн дамжуулж буй урсгалын гаралтыг багц багц болгон хувиргаж, сонгосон битийн хурд дээр үндэслэн мэдээллийг шахдаг. Квантизаторын гаралт нь сүлжээгээр дамжуулах эсвэл дискэнд хадгалахад тохиромжтой мэдээллийн шахсан дүрслэл юм.

Декодер нь өгөгдлийн шахсан дүрслэлийг тайлж, анхны дууны долгионыг сэргээдэг. Ялгаварлагч нь хүний ​​сонсголын ойлголтын загварыг харгалзан үүсгэсэн дээжийн чанарыг сайжруулдаг. Чанар, битийн хурдны түвшингээс үл хамааран кодчилол, код тайлахад ашигладаг загварууд нь нэлээд даруухан нөөц шаардлагуудаар ялгагдана (бодит цагийн үйл ажиллагаанд шаардлагатай тооцооллыг нэг CPU цөм дээр хийдэг).

Facebook нь машин сургалтыг ашиглан EnCodec аудио кодлогчийг нийтэлдэг


Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх