Facebook huchapisha kodeki ya sauti ya EnCodec kwa kutumia kujifunza kwa mashine

Meta/Facebook (iliyopigwa marufuku katika Shirikisho la Urusi) ilianzisha codec mpya ya sauti, EnCodec, ambayo hutumia mbinu za kujifunza kwa mashine ili kuongeza uwiano wa mbano bila kupoteza ubora. Kodeki inaweza kutumika kwa kutiririsha sauti kwa wakati halisi na kwa usimbaji ili kuhifadhi baadaye katika faili. Utekelezaji wa marejeleo ya EnCodec umeandikwa kwa Python kwa kutumia mfumo wa PyTorch na umepewa leseni chini ya leseni ya CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) kwa matumizi yasiyo ya kibiashara pekee.

Mifano mbili zilizotengenezwa tayari hutolewa kwa kupakuliwa:

  • Muundo wa sababu unaotumia kasi ya sampuli ya kHz 24, inayotumia sauti moja pekee, na iliyofunzwa kwenye data mbalimbali za sauti (inafaa kwa usimbaji wa matamshi). Muundo huo unaweza kutumika kufunga data ya sauti kwa uwasilishaji kwa viwango kidogo vya 1.5, 3, 6, 12 na 24 kbps.
  • Muundo usio wa sababu unaotumia kasi ya sampuli ya 48 kHz, inayoauni sauti ya stereo na iliyofunzwa kwenye muziki pekee. Muundo huu unaauni bitrate ya 3, 6, 12 na 24 kbps.

Kwa kila mfano, mfano wa lugha ya ziada umeandaliwa, ambayo inakuwezesha kufikia ongezeko kubwa la uwiano wa ukandamizaji (hadi 40%) bila kupoteza ubora. Tofauti na miradi iliyotengenezwa hapo awali kwa kutumia njia za kujifunza mashine kwa ukandamizaji wa sauti, EnCodec inaweza kutumika sio tu kwa ufungaji wa hotuba, lakini pia kwa ukandamizaji wa muziki na kiwango cha sampuli cha 48 kHz, kinacholingana na kiwango cha CD za sauti. Kulingana na watengenezaji wa codec mpya, wakati wa kusambaza kwa bitrate ya 64 kbps ikilinganishwa na muundo wa MP3, waliweza kuongeza kiwango cha compression ya sauti kwa takriban mara kumi wakati wa kudumisha kiwango sawa cha ubora (kwa mfano, wakati wa kutumia. MP3, kipimo data cha kbps 64 kinahitajika, kwa uwasilishaji na ubora sawa katika EnCodec unatosha 6 kbps).

Usanifu wa codec umejengwa kwenye mtandao wa neural na usanifu wa "transformer" na unategemea viungo vinne: encoder, quantizer, decoder na kibaguzi. Kisimbaji hutoa vigezo vya data ya sauti na kubadilisha mtiririko uliojaa hadi kasi ya chini ya fremu. Kipimaji (RVQ, Residual Vector Quantizer) hubadilisha mtiririko wa matokeo kwa kisimbaji kuwa seti za pakiti, ikibana maelezo kulingana na kasi ya biti iliyochaguliwa. Pato la quantizer ni uwakilishi ulioshinikizwa wa data, inayofaa kwa usambazaji kupitia mtandao au kuhifadhi kwenye diski.

Kisimbuaji husimbua uwakilishi uliobanwa wa data na kuunda upya wimbi asili la sauti. Mbaguzi huboresha ubora wa sampuli zinazozalishwa, kwa kuzingatia mfano wa mtazamo wa ukaguzi wa binadamu. Bila kujali kiwango cha ubora na biti, miundo inayotumika kusimba na kusimbua inatofautishwa na mahitaji ya wastani ya rasilimali (hesabu zinazohitajika kwa operesheni ya wakati halisi hufanywa kwenye msingi mmoja wa CPU).

Facebook huchapisha kodeki ya sauti ya EnCodec kwa kutumia kujifunza kwa mashine


Chanzo: opennet.ru

Kuongeza maoni