Google විසින් Lyra V2 විවෘත කේත ශ්‍රව්‍ය කෝඩෙක් නිකුත් කරයි

Google විසින් Lyra V2 ශ්‍රව්‍ය කෝඩෙක් හඳුන්වා දී ඇති අතර එය ඉතා මන්දගාමී සන්නිවේදන නාලිකා හරහා උපරිම හඬ ගුණාත්මක භාවයක් ලබා ගැනීමට යන්ත්‍ර ඉගෙනීමේ ක්‍රම භාවිතා කරයි. නව අනුවාදය නව ස්නායු ජාල ගෘහ නිර්මාණ ශිල්පයකට සංක්‍රමණය වීම, අමතර වේදිකා සඳහා සහය, වැඩිදියුණු කළ බිට්‍රේට් පාලනය, කාර්ය සාධන වැඩිදියුණු කිරීම් සහ ඉහළ ශ්‍රව්‍ය ගුණාත්මක භාවයකින් සමන්විත වේ. යොමු කේත ක්‍රියාත්මක කිරීම C++ වලින් ලියා Apache 2.0 බලපත්‍රය යටතේ බෙදා හරිනු ලැබේ.

අඩු වේගයකින් සම්ප්රේෂණය වන හඬ දත්තවල ගුණාත්මක භාවය අනුව, ඩිජිටල් සංඥා සැකසුම් ක්රම භාවිතා කරන සාම්ප්රදායික කෝඩෙක්ස් වලට වඩා ලයිරා සැලකිය යුතු ලෙස උසස් වේ. සම්ප්‍රේෂණය වන තොරතුරු සීමිත ප්‍රමාණයක තත්වයන් තුළ උසස් තත්ත්වයේ හඬ සම්ප්‍රේෂණයක් ලබා ගැනීම සඳහා, සාමාන්‍ය ශ්‍රව්‍ය සම්පීඩනය සහ සංඥා පරිවර්තනය කිරීමේ ක්‍රම වලට අමතරව, ලයිරා යන්ත්‍ර ඉගෙනුම් පද්ධතියක් මත පදනම් වූ කථන ආකෘතියක් භාවිතා කරයි, එමඟින් ඔබට අතුරුදහන් වූ තොරතුරු නැවත නිර්මාණය කිරීමට ඉඩ සලසයි. සාමාන්ය කථන ලක්ෂණ මත පදනම්ව.

කෝඩෙක්ට එන්කෝඩරයක් සහ විකේතකයක් ඇතුළත් වේ. සංකේතාකකයේ ඇල්ගොරිතම වන්නේ සෑම මිලි තත්පර 20 කට වරක් හඬ දත්ත පරාමිති උකහා ගැනීම, ඒවා සම්පීඩනය කර 3.2kbps සිට 9.2kbps දක්වා බිට් අනුපාතයක් සහිතව ජාලය හරහා ලබන්නා වෙත මාරු කිරීමයි. ග්‍රාහකයේ පැත්තෙන්, විකේතකය සම්ප්‍රේෂණය කරන ලද ශ්‍රව්‍ය පරාමිතීන් මත පදනම්ව මුල් කථන සංඥාව ප්‍රතිනිර්මාණය කිරීමට උත්පාදක ආකෘතියක් භාවිතා කරයි, ඒවාට ලඝුගණක හුණු වර්ණාවලීක්ෂ ඇතුළත් වන අතර විවිධ සංඛ්‍යාත පරාසයන්හි කථන ශක්ති ලක්ෂණ සැලකිල්ලට ගන්නා අතර මානව ශ්‍රවණ සංජානනය සැලකිල්ලට ගනිමින් සකස් කර ඇත. ආකෘතිය.

Lyra V2 SoundStream convolutional ස්නායු ජාලය මත පදනම් වූ නව උත්පාදක ආකෘතියක් භාවිතා කරයි, එය අඩු බල පද්ධතිවල පවා තත්‍ය කාලීන විකේතනය කිරීමට ඉඩ සලසන පරිගණක සම්පත් වල අඩු අවශ්‍යතා වලින් සංලක්ෂිත වේ. ශබ්දය ජනනය කිරීමට භාවිතා කරන ආකෘතිය භාෂා 90කට අධික ප්‍රමාණයකින් පැය දහස් ගණනක හඬ පටිගත කිරීම් භාවිතයෙන් පුහුණු කර ඇත. TensorFlow Lite ආකෘතිය ක්‍රියාත්මක කිරීමට භාවිතා කරයි. යෝජිත ක්රියාත්මක කිරීමේ කාර්ය සාධනය අඩු මිල පරාසයක ස්මාර්ට්ෆෝන් මත කේතනය කිරීම සහ විකේතනය කිරීම සඳහා ප්රමාණවත් වේ.

වෙනස් උත්පාදක ආකෘතියක් භාවිතා කිරීමට අමතරව, දත්ත සම්ප්‍රේෂණයට පෙර යවන්නාගේ පැත්තේ සහ ලබන්නාගේ පැත්තෙන් සිදු කරනු ලබන කෝඩෙක් ගෘහ නිර්මාණ ශිල්පයේ RVQ (අවශේෂ දෛශික ක්වොන්ටයිසර්) ක්වොන්ටයිසර් සමඟ සබැඳි ඇතුළත් කිරීම සඳහා ද නව අනුවාදය කැපී පෙනේ. දත්ත පිළිගැනීමෙන් පසු. Quantizer විසින් codec මඟින් ලබා දෙන පරාමිති පැකට් කට්ටල බවට පරිවර්තනය කරයි, තෝරාගත් bitrate වලට අදාලව තොරතුරු කේතනය කරයි. ගුණාත්මක විවිධ මට්ටම් සහතික කිරීම සඳහා, බිට් අනුපාත තුනක් (3.2 kps, 6 kbps සහ 9.2 kbps) සඳහා ක්වොන්ටයිසර් සපයනු ලැබේ, බිට් අනුපාතය වැඩි වන තරමට ගුණාත්මකභාවය වඩා හොඳය, නමුත් කලාප පළල අවශ්‍යතා වැඩි වේ.

Google විසින් Lyra V2 විවෘත කේත ශ්‍රව්‍ය කෝඩෙක් නිකුත් කරයි

නව ගෘහ නිර්මාණ ශිල්පය මගින් සංඥා සම්ප්‍රේෂණ ප්‍රමාදයන් මිලි තත්පර 100 සිට 20 දක්වා අඩු කර ඇත. සංසන්දනය කිරීම සඳහා, WebRTC සඳහා Opus codec පරීක්‍ෂා කළ බිට්‍රේට් වලදී 26.5ms, 46.5ms සහ 66.5ms ප්‍රමාදයන් පෙන්නුම් කළේය. සංකේතාකකයේ සහ විකේතකයේ ක්‍රියාකාරිත්වය ද සැලකිය යුතු ලෙස වැඩි වී ඇත - පෙර අනුවාදයට සාපේක්ෂව 5 ගුණයක් දක්වා ත්වරණයක් ඇත. උදාහරණයක් ලෙස, Pixel 6 Pro ස්මාර්ට් ජංගම දුරකතනයේ, නව කෝඩෙක් 20-ms සාම්පලයක් 0.57 ms වලදී සංකේතනය කර විකේතනය කරයි, එය තත්‍ය කාලීන සම්ප්‍රේෂණය සඳහා අවශ්‍ය ප්‍රමාණයට වඩා 35 ගුණයකින් වේගවත් වේ.

කාර්ය සාධනයට අමතරව, ශබ්ද ප්‍රතිසාධනයේ ගුණාත්මකභාවය වැඩි දියුණු කිරීමට ද අපි සමත් විය - MUSHRA පරිමාණයට අනුව, Lyra V3.2 කෝඩෙක් භාවිතා කරන විට 6 kbps, 9.2 kbps සහ 2 kbps බිට් අනුපාතයකින් කථනයේ ගුණාත්මකභාවය 10 ක බිට් අනුපාතවලට අනුරූප වේ. ඔපස් කෝඩෙක් භාවිතා කරන විට kbps, 13 kbps සහ 14 kbps.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න