ෆේස්බුක් යන්ත්‍ර ඉගෙනීම භාවිතයෙන් EnCodec ශ්‍රව්‍ය කෝඩෙක් ප්‍රකාශයට පත් කරයි

මෙටා/ෆේස්බුක් (රුසියානු සමූහාණ්ඩුවේ තහනම් කර ඇත) නව ශ්‍රව්‍ය කෝඩෙක්, එන්කොඩෙක් හඳුන්වා දුන් අතර එය ගුණාත්මක භාවය නැති නොවී සම්පීඩන අනුපාතය වැඩි කිරීමට යන්ත්‍ර ඉගෙනීමේ ක්‍රම භාවිතා කරයි. තත්‍ය කාලීන ශ්‍රව්‍ය ප්‍රවාහය සඳහා සහ පසුව ගොනු සුරැකීම සඳහා කේතනය කිරීම සඳහා කෝඩෙක් භාවිතා කළ හැක. EnCodec යොමු ක්‍රියාත්මක කිරීම PyTorch රාමුව භාවිතයෙන් Python හි ලියා ඇති අතර වාණිජ නොවන භාවිතය සඳහා පමණක් CC BY-NC 4.0 (Creative Commons Attribution-Noncommercial) බලපත්‍රයක් යටතේ බලපත්‍ර ලබා ඇත.

බාගත කිරීම සඳහා සූදානම් කළ ආකෘති දෙකක් පිරිනමනු ලැබේ:

  • 24 kHz නියැදි අනුපාතයක් භාවිතා කරන හේතුකාරක ආකෘතියක්, මොනොෆොනික් ශ්‍රව්‍ය සඳහා පමණක් සහය දක්වයි, සහ විවිධ ශ්‍රව්‍ය දත්ත මත පුහුණු කර ඇත (කථන කේතීකරණය සඳහා සුදුසු). 1.5, 3, 6, 12 සහ 24 kbps බිට් අනුපාතයකින් සම්ප්‍රේෂණය සඳහා ශ්‍රව්‍ය දත්ත ඇසුරුම් කිරීමට ආකෘතිය භාවිතා කළ හැක.
  • 48 kHz නියැදි අනුපාතයක් භාවිතා කරන හේතු නොවන ආකෘතියක්, ස්ටීරියෝ ශ්‍රව්‍ය සඳහා සහය දක්වන සහ සංගීතය මත පමණක් පුහුණු කර ඇත. ආකෘතිය 3, 6, 12 සහ 24 kbps බිට්රේට් සඳහා සහය දක්වයි.

එක් එක් ආකෘතිය සඳහා, අතිරේක භාෂා ආකෘතියක් සකස් කර ඇති අතර, ගුණාත්මක භාවය නැතිවීමකින් තොරව සම්පීඩන අනුපාතයෙහි (40% දක්වා) සැලකිය යුතු වැඩි වීමක් ලබා ගැනීමට ඔබට ඉඩ සලසයි. ශ්‍රව්‍ය සම්පීඩනය සඳහා යන්ත්‍ර ඉගෙනුම් ක්‍රම භාවිතා කරමින් කලින් සංවර්ධනය කරන ලද ව්‍යාපෘති මෙන් නොව, එන්කොඩෙක් කථන ඇසුරුම් සඳහා පමණක් නොව, ශ්‍රව්‍ය සංයුක්ත තැටි මට්ටමට අනුරූප වන නියැදි අනුපාතය 48 kHz සමඟ සංගීත සම්පීඩනය සඳහා ද භාවිතා කළ හැකිය. නව කෝඩෙක් හි සංවර්ධකයින්ට අනුව, MP64 ආකෘතියට සාපේක්ෂව 3 kbps බිට්රේට් සමඟ සම්ප්‍රේෂණය කරන විට, එකම මට්ටමේ ගුණාත්මක බවක් පවත්වා ගනිමින් ශ්‍රව්‍ය සම්පීඩන මට්ටම දළ වශයෙන් දස ගුණයකින් වැඩි කිරීමට ඔවුන්ට හැකි විය (උදාහරණයක් ලෙස, භාවිතා කරන විට. MP3, 64 kbps කලාප පළලක් අවශ්‍ය වේ, එය සමඟ සම්ප්‍රේෂණය කිරීම සඳහා EnCodec හි එකම ගුණාත්මක භාවය ප්‍රමාණවත් 6 kbps).

කෝඩෙක් ගෘහ නිර්මාණ ශිල්පය "ට්‍රාන්ස්ෆෝමර්" ගෘහ නිර්මාණ ශිල්පයක් සහිත ස්නායුක ජාලයක් මත ගොඩනගා ඇති අතර එය සබැඳි හතරක් මත පදනම් වේ: කේතකය, ක්වොන්ටයිසර්, විකේතකය සහ වෙනස්කම් කරන්නා. කේතකය හඬ දත්තවල පරාමිතීන් උපුටා ගන්නා අතර ඇසුරුම් කළ ප්‍රවාහය අඩු රාමු අනුපාතයකට පරිවර්තනය කරයි. quantizer (RVQ, Residual Vector Quantizer) විසින් තෝරාගත් බිට්‍රේට් මත පදනම්ව තොරතුරු සම්පීඩනය කරමින් කේතකය මඟින් ප්‍රවාහ ප්‍රතිදානය පැකට් කට්ටල බවට පරිවර්තනය කරයි. Quantizer හි ප්‍රතිදානය යනු ජාලයක් හරහා සම්ප්‍රේෂණය කිරීමට හෝ තැටියට සුරැකීමට සුදුසු දත්තවල සම්පීඩිත නිරූපණයකි.

විකේතකය දත්තවල සම්පීඩිත නිරූපණය විකේතනය කර මුල් ශබ්ද තරංගය ප්‍රතිනිර්මාණය කරයි. වෙනස්කම් කරන්නා මානව ශ්‍රවණ සංජානනයේ ආකෘතිය සැලකිල්ලට ගනිමින් උත්පාදනය කරන ලද සාම්පලවල ගුණාත්මකභාවය වැඩි දියුණු කරයි. ගුණාත්මකභාවය සහ බිට්රේට් මට්ටම කුමක් වුවත්, කේතනය කිරීම සහ විකේතනය කිරීම සඳහා භාවිතා කරන ආකෘති තරමක් නිහතමානී සම්පත් අවශ්‍යතා වලින් වෙන්කර හඳුනාගත හැකිය (තත්‍ය කාලීන ක්‍රියාකාරිත්වය සඳහා අවශ්‍ය ගණනය කිරීම් තනි CPU හරයක් මත සිදු කෙරේ).

ෆේස්බුක් යන්ත්‍ර ඉගෙනීම භාවිතයෙන් EnCodec ශ්‍රව්‍ය කෝඩෙක් ප්‍රකාශයට පත් කරයි


මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න