Facebook машиналық оқытуды қолдана отырып, EnCodec аудио кодегін шығарады

Meta/Facebook (Ресей Федерациясында тыйым салынған) сапаны жоғалтпай қысу коэффициентін арттыру үшін машиналық оқыту әдістерін қолданатын EnCodec жаңа аудио кодекін ұсынды. Кодек нақты уақытта аудио ағыны үшін де, кейінірек файлдарда сақтау үшін кодтау үшін де пайдаланылуы мүмкін. EnCodec анықтамалық орындалуы PyTorch құрылымын пайдаланып Python тілінде жазылған және тек коммерциялық емес мақсатта пайдалануға арналған CC BY-NC 4.0 (Creative Commons Attribution-Commercial емес) лицензиясы бойынша лицензияланған.

Жүктеп алу үшін екі дайын модель ұсынылады:

  • Тек монофониялық дыбысты қолдайтын және әртүрлі аудио деректеріне үйретілген 24 кГц таңдау жиілігін пайдаланатын себепті модель (сөйлеуді кодтауға жарамды). Модель 1.5, 3, 6, 12 және 24 кбит/с бит жылдамдықтарында тасымалдау үшін дыбыстық деректерді бумалау үшін пайдаланылуы мүмкін.
  • Стерео дыбысты қолдайтын және тек музыкада оқытылатын 48 кГц таңдау жиілігін пайдаланатын себепсіз модель. Модель 3, 6, 12 және 24 кбит/с бит жылдамдығын қолдайды.

Әрбір модель үшін сапаны жоғалтпай сығымдау коэффициентінің айтарлықтай өсуіне (40% дейін) қол жеткізуге мүмкіндік беретін қосымша тіл үлгісі дайындалды. Дыбысты қысу үшін машиналық оқыту әдістерін қолданатын бұрын әзірленген жобалардан айырмашылығы, EnCodec тек сөйлеуді орау үшін ғана емес, сонымен қатар аудио ықшам дискілердің деңгейіне сәйкес келетін 48 кГц таңдау жиілігі бар музыканы қысу үшін де пайдаланылуы мүмкін. Жаңа кодек әзірлеушілерінің пікірінше, MP64 пішіміне қарағанда бит жылдамдығы 3 кбит/с болған кезде, олар бірдей сапа деңгейін сақтай отырып, дыбысты сығу дәрежесін шамамен он есе арттыра алды (мысалы, пайдалану кезінде MP3, өткізу қабілеттілігі 64 кбит/с қажет, онымен EnCodec-те бірдей сапамен жіберу үшін 6 кбит/с жеткілікті).

Кодек архитектурасы «трансформатор» архитектурасы бар нейрондық желіде құрастырылған және төрт сілтемеге негізделген: кодтаушы, квантизатор, декодер және дискриминатор. Кодер дауыстық деректердің параметрлерін шығарып, жинақталған ағынды төменгі кадр жиілігіне түрлендіреді. Квантизатор (RVQ, қалдық векторлық квантизатор) таңдалған бит жылдамдығына негізделген ақпаратты қысып, кодтаушының ағындық шығысын пакеттер жиынына түрлендіреді. Квантизатордың шығысы желі арқылы беруге немесе дискіге сақтауға жарамды деректердің қысылған көрінісі болып табылады.

Декодер деректердің қысылған көрінісін декодтайды және бастапқы дыбыс толқынын қалпына келтіреді. Дискриминатор адамның есту қабылдау үлгісін ескере отырып, жасалған үлгілердің сапасын жақсартады. Сапа мен бит жылдамдығының деңгейіне қарамастан, кодтау және декодтау үшін қолданылатын модельдер ресурстың қарапайым талаптарымен ерекшеленеді (нақты уақытта жұмыс істеу үшін қажетті есептеулер бір процессордың ядросында орындалады).

Facebook машиналық оқытуды қолдана отырып, EnCodec аудио кодегін шығарады


Ақпарат көзі: opennet.ru

пікір қалдыру