දුර්වල සම්බන්ධතා ගුණාත්මක භාවයෙන් කථන සම්ප්‍රේෂණය සඳහා Google විසින් Lyra ශ්‍රව්‍ය කෝඩෙක් ප්‍රකාශයට පත් කර ඇත

Google විසින් නව ශ්‍රව්‍ය කෝඩෙක්, Lyra හඳුන්වා දී ඇත, ඉතා මන්දගාමී සන්නිවේදන නාලිකා භාවිතා කරන විට පවා උපරිම හඬ ගුණාත්මක භාවයක් ලබා ගැනීමට ප්‍රශස්ත කර ඇත. Lyra ක්‍රියාත්මක කිරීමේ කේතය C++ වලින් ලියා Apache 2.0 බලපත්‍රය යටතේ විවෘත වේ, නමුත් ක්‍රියාත්මක වීමට අවශ්‍ය පරායත්තතා අතර හිමිකාර පුස්තකාලයක් ඇත libsparse_inference.so ගණිතමය ගණනය කිරීම් සඳහා කර්නල් ක්‍රියාත්මක කිරීමක් ඇත. හිමිකාර පුස්තකාලය තාවකාලික බව සටහන් කර ඇත - අනාගතයේදී Google විවෘත ආදේශකයක් සංවර්ධනය කිරීමට සහ විවිධ වේදිකා සඳහා සහාය ලබා දීමට පොරොන්දු වේ.

අඩු වේගයකින් සම්ප්රේෂණය වන හඬ දත්තවල ගුණාත්මක භාවය අනුව, ඩිජිටල් සංඥා සැකසුම් ක්රම භාවිතා කරන සාම්ප්රදායික කෝඩෙක්ස් වලට වඩා ලයිරා සැලකිය යුතු ලෙස උසස් වේ. සම්ප්‍රදායික ශ්‍රව්‍ය සම්පීඩනය සහ සංඥා පරිවර්තනය කිරීමේ ක්‍රමවලට අමතරව, සම්ප්‍රේෂණය වන සීමිත තොරතුරු ප්‍රමාණයක උසස් තත්ත්වයේ හඬ සම්ප්‍රේෂණයක් ලබා ගැනීම සඳහා, ලයිරා යන්ත්‍ර ඉගෙනුම් පද්ධතියක් මත පදනම් වූ කථන ආකෘතියක් භාවිතා කරයි, එමඟින් ඔබට අතුරුදහන් වූ තොරතුරු නැවත නිර්මාණය කිරීමට ඉඩ සලසයි. සාමාන්ය කථන ලක්ෂණ. ශබ්ද උත්පාදනය සඳහා භාවිතා කරන ලද ආකෘතිය භාෂා 70කට වඩා වැඩි ගණනකින් පැය දහස් ගණනක හඬ පටිගත කිරීම් භාවිතයෙන් පුහුණු කරන ලදී.

දුර්වල සම්බන්ධතා ගුණාත්මක භාවයෙන් කථන සම්ප්‍රේෂණය සඳහා Google විසින් Lyra ශ්‍රව්‍ය කෝඩෙක් ප්‍රකාශයට පත් කර ඇත

කෝඩෙක්ට එන්කෝඩරයක් සහ විකේතකයක් ඇතුළත් වේ. සංකේතාකකයේ ඇල්ගොරිතම සෑම මිලි තත්පර 40 කට වරක් හඬ දත්ත පරාමිති උකහා ගැනීම, ඒවා සම්පීඩනය කිරීම සහ ජාලය හරහා ලබන්නා වෙත සම්ප්‍රේෂණය කිරීම දක්වා පහත වැටේ. දත්ත සම්ප්රේෂණය සඳහා තත්පරයට කිලෝබිට් 3 ක වේගයක් සහිත සන්නිවේදන නාලිකාවක් ප්රමාණවත් වේ. නිස්සාරණය කරන ලද ශ්‍රව්‍ය පරාමිතිවලට ලඝුගණක මෙල් වර්ණාවලීක්ෂ ඇතුළත් වන අතර ඒවා විවිධ සංඛ්‍යාත පරාසයන්හි කථනයේ ශක්ති ලක්ෂණ සැලකිල්ලට ගන්නා අතර මානව ශ්‍රවණ සංජානනයේ ආකෘතිය සැලකිල්ලට ගනිමින් සකස් කරනු ලැබේ.

දුර්වල සම්බන්ධතා ගුණාත්මක භාවයෙන් කථන සම්ප්‍රේෂණය සඳහා Google විසින් Lyra ශ්‍රව්‍ය කෝඩෙක් ප්‍රකාශයට පත් කර ඇත

විකේතකය සම්ප්‍රේෂණය කරන ලද ශ්‍රව්‍ය පරාමිතීන් මත පදනම්ව, කථන සංඥාව ප්‍රතිනිර්මාණය කරන ජනක ආකෘතියක් භාවිතා කරයි. ගණනය කිරීම් වල සංකීර්ණත්වය අඩු කිරීම සඳහා, අඩු නියැදි සංඛ්‍යාතයක් භාවිතා කරන, නමුත් විවිධ සංඛ්‍යාත පරාසයන්හි සමාන්තරව සංඥා කිහිපයක් ජනනය කරන WaveRNN කථන සංස්ලේෂණ ආකෘතියේ ප්‍රභේදයක් වන පුනරාවර්තන ස්නායුක ජාලයක් මත පදනම් වූ සැහැල්ලු ආකෘතියක් භාවිතා කරන ලදී. එවිට ලැබෙන සංඥා නිශ්චිත නියැදි අනුපාතයට අනුරූප තනි නිමැවුම් සංඥාවක් නිපදවීමට අධිස්ථාපනය වේ.

ත්වරණය සඳහා 64-bit ARM ප්‍රොසෙසරවල ඇති විශේෂිත ප්‍රොසෙසර උපදෙස් ද භාවිතා වේ. එහි ප්‍රතිඵලයක් වශයෙන්, යන්ත්‍ර ඉගෙනීමේ භාවිතය තිබියදීත්, Lyra codec එක මධ්‍යම පරාසයේ ස්මාර්ට්ෆෝන්වල තත්‍ය කාලීන කථන කේතීකරණය සහ විකේතනය සඳහා භාවිතා කළ හැකි අතර, මිලි තත්පර 90ක සංඥා සම්ප්‍රේෂණ ප්‍රමාදය පෙන්නුම් කරයි.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න