ጎግል Lyra V2 ክፍት ምንጭ ኦዲዮ ኮዴክን ለቋል

ጎግል የላይራ ቪ2 ኦዲዮ ኮዴክን አስተዋውቋል፣ይህም የማሽን መማሪያ ቴክኒኮችን የሚጠቀመው በጣም ቀርፋፋ የመገናኛ መንገዶች ከፍተኛ የድምጽ ጥራትን ለማግኘት ነው። አዲሱ እትም ወደ አዲስ የነርቭ ኔትወርክ አርክቴክቸር ሽግግር፣ ለተጨማሪ የመሣሪያ ስርዓቶች ድጋፍ፣ የሰፋ የቢትሬት ቁጥጥር ችሎታዎች፣ የተሻሻለ አፈጻጸም እና ከፍተኛ የድምጽ ጥራት ያሳያል። የማጣቀሻ ኮድ አተገባበር በC++ ተጽፎ በApache 2.0 ፍቃድ ስር ተሰራጭቷል።

በዝቅተኛ ፍጥነት ከሚተላለፈው የድምፅ መረጃ ጥራት አንጻር ሊራ የዲጂታል ሲግናል ማቀነባበሪያ ዘዴዎችን ከሚጠቀሙ ባህላዊ ኮዴኮች በእጅጉ የላቀ ነው። ከፍተኛ ጥራት ያለው የድምፅ ስርጭት በተወሰነ መጠን የሚተላለፉ መረጃዎችን ለማግኘት ፣ ከተለመዱት የኦዲዮ መጭመቂያ እና የምልክት ልወጣ ዘዴዎች በተጨማሪ ሊራ በማሽን መማሪያ ስርዓት ላይ የተመሠረተ የንግግር ሞዴልን ትጠቀማለች ፣ ይህም የጎደለውን መረጃ መሠረት በማድረግ እንደገና እንዲፈጥሩ ያስችልዎታል ። የተለመዱ የንግግር ባህሪያት.

ኮዴክ ኢንኮደር እና ዲኮደርን ያካትታል። የመቀየሪያው አልጎሪዝም በየ20 ሚሊሰከንድ የድምጽ ዳታ መለኪያዎችን በማውጣት በማመቅ እና በኔትወርክ ከ3.2kbps እስከ 9.2kbps ቢትሬት ባለው ኔትወርክ ለተቀባዩ ያስተላልፋል። በተቀባይ መጨረሻ ዲኮደር በሚተላለፉት የድምጽ መለኪያዎች ላይ በመመስረት የመጀመሪያውን የንግግር ምልክት እንደገና ለመገንባት አመንጪ ሞዴልን ይጠቀማል ፣ እነዚህም የሎጋሪዝም ኖራ ስፔክትሮግራሞችን ያካተቱ እና የንግግር የኃይል ባህሪዎችን በተለያዩ ድግግሞሽ ክልሎች ያገናዘቡ እና ሞዴሎችን ከግምት ውስጥ በማስገባት የተዘጋጁ ናቸው ። የሰው የመስማት ግንዛቤ.

Lyra V2 ዝቅተኛ የስሌት መስፈርቶች ያለው በ SoundStream convolutional neural network ላይ የተመሰረተ አዲስ አመንጪ ሞዴልን ይጠቀማል ይህም ዝቅተኛ ኃይል ባላቸው ስርዓቶች ላይ እንኳን በእውነተኛ ጊዜ መፍታት ያስችላል። ድምጹን ለማመንጨት ጥቅም ላይ የዋለው ሞዴል ከ90 በሚበልጡ ቋንቋዎች ለብዙ ሺህ ሰዓታት የድምፅ ቅጂዎችን በመጠቀም የሰለጠነ ነው። ሞዴሉን ለማስፈጸም TensorFlow Lite ስራ ላይ ይውላል። በዝቅተኛ የዋጋ ክልል ውስጥ በስማርትፎኖች ላይ የንግግር ኢንኮዲንግ እና ዲኮዲንግ ለማድረግ የታቀደው ትግበራ አፈፃፀም በቂ ነው።

የተለየ የትውልድ ሞዴል ከመጠቀም በተጨማሪ አዲሱ ስሪት መረጃን ከማስተላለፉ በፊት በላኪው በኩል የሚተገበረውን ከ RVQ (ቀሪ ቬክተር ኳንትዘር) ኳንቲዘር ጋር በማገናኘት በኮዴክ አርክቴክቸር ውስጥ በመካተቱ እና በተቀባዩ በኩል የሚታወቅ ነው። ውሂብ ከተቀበለ በኋላ. ኳንቲዘር በኮዴክ የተሰሩትን መለኪያዎች ከተመረጠው ቢትሬት ጋር በማያያዝ መረጃን ወደ ፓኬት ስብስቦች ይቀይራል። የተለያዩ የጥራት ደረጃዎችን ለማቅረብ, ኳንቲዘርስ ለሶስት ቢትሬትስ (3.2 kps, 6 kbps እና 9.2 kbps) ይቀርባሉ, ከፍተኛው ቢትሬት, ጥራቱ የተሻለ ነው, ነገር ግን የመተላለፊያ ይዘት መስፈርቶች ከፍ ያለ ነው.

ጎግል Lyra V2 ክፍት ምንጭ ኦዲዮ ኮዴክን ለቋል

አዲሱ አርክቴክቸር የሲግናል ስርጭት መዘግየትን ከ100 ወደ 20 ሚሊሰከንዶች ቀንሷል። ለማነጻጸር፣ የWebRTC Opus codec 26.5ms፣ 46.5ms እና 66.5ms በሙከራ ቢትሬት ላይ መዘግየት አሳይቷል። የመቀየሪያ እና ዲኮደር አፈፃፀም በከፍተኛ ሁኔታ ጨምሯል - ከቀዳሚው ስሪት ጋር ሲነፃፀር እስከ 5 እጥፍ ፈጣን። ለምሳሌ በ Pixel 6 Pro ስማርትፎን አዲሱ ኮዴክ በ20 ms ውስጥ የ0.57-ሚሴ ናሙና ኮድ እና ዲኮድ ያወጣል ይህም ለእውነተኛ ጊዜ ስርጭት ከሚያስፈልገው በ35 እጥፍ ፈጣን ነው።

ከአፈፃፀም በተጨማሪ የድምፅ መልሶ ማቋቋም ጥራትን ማሻሻል ተችሏል - በ MUSHRA ልኬት መሠረት የሊራ ቪ 3.2 ኮድ ሲጠቀሙ የንግግር ጥራት በ 6 ኪ.ቢ.ቢ, 9.2 ኪ.ቢ.ቢ እና 2 ኪ.ባ. Opus codec ሲጠቀሙ ኪቢቢቢቢ እና 10 ኪባ

ምንጭ: opennet.ru

አስተያየት ያክሉ