تصدر Google برنامج ترميز الصوت المفتوح المصدر Lyra V2

طرحت شركة Google برنامج ترميز الصوت Lyra V2، الذي يستخدم تقنيات التعلم الآلي لتحقيق أقصى جودة صوت عبر قنوات اتصال بطيئة للغاية. يتميز الإصدار الجديد بالانتقال إلى بنية شبكة عصبية جديدة، ودعم منصات إضافية، وإمكانيات موسعة للتحكم في معدل البت، وتحسين الأداء وجودة صوت أعلى. تتم كتابة تطبيق الكود المرجعي بلغة C++ ويتم توزيعه بموجب ترخيص Apache 2.0.

من حيث جودة البيانات الصوتية المرسلة بسرعات منخفضة، تتفوق Lyra بشكل كبير على برامج الترميز التقليدية التي تستخدم أساليب معالجة الإشارات الرقمية. لتحقيق نقل صوتي عالي الجودة في ظروف وجود كمية محدودة من المعلومات المرسلة، بالإضافة إلى الطرق التقليدية لضغط الصوت وتحويل الإشارة، تستخدم Lyra نموذج كلام يعتمد على نظام التعلم الآلي، والذي يسمح لك بإعادة إنشاء المعلومات المفقودة بناءً على خصائص الكلام النموذجية.

يتضمن برنامج الترميز جهاز تشفير ووحدة فك ترميز. تتلخص خوارزمية التشفير في استخراج معلمات البيانات الصوتية كل 20 مللي ثانية، وضغطها وإرسالها إلى المستلم عبر شبكة بمعدل بت يتراوح من 3.2 كيلوبت في الثانية إلى 9.2 كيلوبت في الثانية. في نهاية جهاز الاستقبال، يستخدم مفكك التشفير نموذجًا توليديًا لإعادة بناء إشارة الكلام الأصلية استنادًا إلى المعلمات الصوتية المرسلة، والتي تتضمن مخططات طيفية طباشيرية لوغاريتمية تأخذ في الاعتبار خصائص طاقة الكلام في نطاقات ترددية مختلفة ويتم إعدادها مع مراعاة نماذج الإدراك السمعي البشري.

يستخدم Lyra V2 نموذجًا توليديًا جديدًا يعتمد على الشبكة العصبية التلافيفية SoundStream، التي لديها متطلبات حسابية منخفضة، مما يسمح بفك التشفير في الوقت الفعلي حتى على الأنظمة منخفضة الطاقة. تم تدريب النموذج المستخدم لتوليد الصوت باستخدام عدة آلاف من الساعات من التسجيلات الصوتية بأكثر من 90 لغة. يتم استخدام TensorFlow Lite لتنفيذ النموذج. أداء التنفيذ المقترح كافٍ لتشفير الكلام وفك تشفيره على الهواتف الذكية في النطاق السعري الأقل.

بالإضافة إلى استخدام نموذج توليدي مختلف، يتميز الإصدار الجديد أيضًا بتضمينه في بنية برنامج الترميز للروابط مع مُكمم RVQ (مُكمي المتجهات المتبقية)، والذي يتم تنفيذه على جانب المرسل قبل إرسال البيانات، وعلى جانب المتلقي بعد تلقي البيانات. يقوم المُكمم بتحويل المعلمات التي ينتجها برنامج الترميز إلى مجموعات من الحزم، وترميز المعلومات فيما يتعلق بمعدل البت المحدد. لتوفير مستويات مختلفة من الجودة، يتم توفير وحدات الكميات لثلاثة معدلات بت (3.2 كيلوبت في الثانية، 6 كيلوبت في الثانية، 9.2 كيلوبت في الثانية)، كلما زاد معدل البت، كانت الجودة أفضل، ولكن متطلبات عرض النطاق الترددي أعلى.

تصدر Google برنامج ترميز الصوت المفتوح المصدر Lyra V2

قامت البنية الجديدة بتقليل تأخير إرسال الإشارة من 100 إلى 20 مللي ثانية. للمقارنة، أظهر برنامج ترميز Opus لـ WebRTC زمن وصول قدره 26.5 مللي ثانية، و46.5 مللي ثانية، و66.5 مللي ثانية عند معدلات البت التي تم اختبارها. كما زاد أداء برنامج التشفير ووحدة فك التشفير بشكل ملحوظ - أسرع بما يصل إلى 5 مرات مقارنة بالإصدار السابق. على سبيل المثال، في هاتف Pixel 6 Pro الذكي، يقوم برنامج الترميز الجديد بتشفير وفك تشفير عينة بحجم 20 مللي ثانية في 0.57 مللي ثانية، وهو أسرع 35 مرة من المطلوب للإرسال في الوقت الفعلي.

بالإضافة إلى الأداء، كان من الممكن أيضًا تحسين جودة استعادة الصوت - وفقًا لمقياس MUSHRA، فإن جودة الكلام بمعدلات بت تبلغ 3.2 كيلوبت في الثانية و6 كيلوبت في الثانية و9.2 كيلوبت في الثانية عند استخدام برنامج ترميز Lyra V2 تتوافق مع معدلات بت تبلغ 10 كيلوبت في الثانية و13 كيلوبت في الثانية و14 كيلوبت في الثانية عند استخدام برنامج ترميز Opus.

المصدر: opennet.ru

إضافة تعليق