Facebook кодек аудиои EnCodec-ро бо истифода аз омӯзиши мошин нашр мекунад

Meta/Facebook (дар Федератсияи Русия мамнӯъ) як кодеки нави аудио EnCodec-ро муаррифӣ кард, ки усулҳои омӯзиши мошинро барои баланд бардоштани таносуби фишурдашавӣ бе гум кардани сифат истифода мебарад. Кодекро ҳам барои ҷараёнҳои аудио дар вақти воқеӣ ва ҳам барои рамзгузорӣ барои захираи баъдӣ дар файлҳо истифода бурдан мумкин аст. Татбиқи истинодҳои EnCodec дар Python бо истифода аз чаҳорчӯбаи PyTorch навишта шудааст ва тибқи иҷозатномаи CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) танҳо барои истифодаи ғайритиҷоратӣ иҷозатнома дорад.

Ду модели тайёр барои зеркашӣ пешниҳод карда мешаванд:

  • Модели каузалӣ бо истифода аз суръати интихобкунии 24 кГц, ки танҳо аудиои монофониро дастгирӣ мекунад ва дар бораи маълумотҳои гуногуни аудиоӣ таълим дода шудааст (барои рамзгузории нутқ мувофиқ аст). Модел метавонад барои бастабандии додаҳои аудиоӣ барои интиқол бо суръати битҳои 1.5, 3, 6, 12 ва 24 kbps истифода шавад.
  • Модели ғайрикаузалӣ бо истифода аз суръати интихобкунии 48 кГц, садои стереоро дастгирӣ мекунад ва танҳо дар мусиқӣ таълим дода шудааст. Модел суръати битҳои 3, 6, 12 ва 24 kbps-ро дастгирӣ мекунад.

Барои ҳар як модел модели иловагии забон омода карда шудааст, ки ба шумо имкон медиҳад, ки бе талафи сифат ба афзоиши назарраси таносуби фишурдашавӣ (то 40%) ноил шавед. Баръакси лоиҳаҳои қаблан таҳияшуда бо истифода аз усулҳои омӯзиши мошинсозӣ барои фишурдани аудио, EnCodec метавонад на танҳо барои бастабандии нутқ, балки барои фишурдани мусиқӣ бо суръати интихоби 48 кГц, ки ба сатҳи CD-ҳои аудио мувофиқ аст, истифода шавад. Ба гуфтаи таҳиягарони кодеки нав, ҳангоми интиқол бо суръати бит 64 кбит / бит дар муқоиса бо формати MP3, онҳо тавонистанд дараҷаи фишурдани аудиоро тақрибан даҳ маротиба афзоиш дода, дар ҳоле ки ҳамон сатҳи сифатро нигоҳ доранд (масалан, ҳангоми истифодаи MP3, фарохмаҷрои 64 kbps лозим аст, барои интиқол бо ҳамон сифат дар EnCodec 6 kbps кофӣ аст).

Меъмории кодек дар шабакаи нейрон бо меъмории "трансформатор" сохта шудааст ва ба чаҳор пайванд асос ёфтааст: рамзгузор, квантизатор, декодер ва дискриминатор. Рамзгузор параметрҳои маълумоти овозиро истихроҷ мекунад ва ҷараёни басташударо ба суръати чаҳорчӯбаи камтар табдил медиҳад. Квантизатор (RVQ, Residual Vector Quantizer) баромади ҷараёнро аз ҷониби рамзгузор ба маҷмӯи пакетҳо табдил дода, иттилоотро дар асоси суръати интихобшуда фишурда мекунад. Натиҷаи квантизатор намоиши фишурдашудаи додаҳо мебошад, ки барои интиқол тавассути шабака ё захира кардан ба диск мувофиқ аст.

Декодер муаррифии фишурдашудаи маълумотро рамзкушо карда, мавҷи садои аслиро барқарор мекунад. Дискриминатор сифати намунаҳои тавлидшударо бо назардошти модели дарки шунавоии инсон беҳтар мекунад. Новобаста аз сатҳи сифат ва суръати бит, моделҳое, ки барои рамзгузорӣ ва рамзкушоӣ истифода мешаванд, бо талаботи хеле хоксоронаи захираҳо фарқ мекунанд (ҳисобҳои зарурӣ барои кори вақти воқеӣ дар як ядрои CPU анҷом дода мешаванд).

Facebook кодек аудиои EnCodec-ро бо истифода аз омӯзиши мошин нашр мекунад


Манбаъ: opennet.ru

Илова Эзоҳ