نشرت Google برنامج ترميز الصوت Lyra لنقل الكلام بجودة اتصال رديئة

طرحت Google برنامج ترميز صوتي جديد، Lyra، تم تحسينه لتحقيق أقصى قدر من جودة الصوت حتى عند استخدام قنوات اتصال بطيئة جدًا. كود تطبيق Lyra مكتوب بلغة C++ ومفتوح بموجب ترخيص Apache 2.0، ولكن من بين التبعيات المطلوبة للتشغيل هناك مكتبة خاصة libsparse_inference.so مع تطبيق kernel لإجراء العمليات الحسابية الرياضية. تجدر الإشارة إلى أن مكتبة الملكية مؤقتة - في المستقبل تعد Google بتطوير بديل مفتوح وتقديم الدعم لمختلف الأنظمة الأساسية.

من حيث جودة البيانات الصوتية المرسلة بسرعات منخفضة، تتفوق Lyra بشكل كبير على برامج الترميز التقليدية التي تستخدم أساليب معالجة الإشارات الرقمية. لتحقيق نقل صوتي عالي الجودة في ظروف وجود كمية محدودة من المعلومات المرسلة، بالإضافة إلى الطرق التقليدية لضغط الصوت وتحويل الإشارة، تستخدم Lyra نموذج كلام يعتمد على نظام التعلم الآلي، والذي يسمح لك بإعادة إنشاء المعلومات المفقودة بناءً على خصائص الكلام النموذجية. تم تدريب النموذج المستخدم لتوليد الصوت باستخدام عدة آلاف من الساعات من التسجيلات الصوتية بأكثر من 70 لغة.

نشرت Google برنامج ترميز الصوت Lyra لنقل الكلام بجودة اتصال رديئة

يتضمن برنامج الترميز جهاز تشفير ووحدة فك ترميز. تتلخص خوارزمية التشفير في استخراج معلمات البيانات الصوتية كل 40 مللي ثانية، وضغطها، وإرسالها إلى المستلم عبر الشبكة. قناة اتصال بسرعة 3 كيلوبت في الثانية كافية لنقل البيانات. تشتمل المعلمات الصوتية المستخرجة على مخططات طيفية لوغاريتمية تأخذ في الاعتبار خصائص طاقة الكلام في نطاقات ترددية مختلفة ويتم إعدادها مع مراعاة نموذج الإدراك السمعي البشري.

نشرت Google برنامج ترميز الصوت Lyra لنقل الكلام بجودة اتصال رديئة

يستخدم جهاز فك التشفير نموذجًا توليديًا يقوم، استنادًا إلى معلمات الصوت المرسلة، بإعادة إنشاء إشارة الكلام. لتقليل تعقيد الحسابات، تم استخدام نموذج خفيف الوزن يعتمد على شبكة عصبية متكررة، وهو بديل لنموذج تركيب الكلام WaveRNN، الذي يستخدم تردد أخذ عينات أقل، ولكنه يولد عدة إشارات بالتوازي في نطاقات تردد مختلفة. يتم بعد ذلك تركيب الإشارات الناتجة لإنتاج إشارة خرج واحدة تتوافق مع معدل أخذ العينات المحدد.

تُستخدم أيضًا تعليمات المعالج المتخصصة المتوفرة في معالجات ARM 64 بت للتسريع. ونتيجة لذلك، وعلى الرغم من استخدام التعلم الآلي، يمكن استخدام برنامج ترميز Lyra لتشفير وفك تشفير الكلام في الوقت الفعلي على الهواتف الذكية متوسطة المدى، مما يوضح زمن انتقال إرسال الإشارة يبلغ 90 مللي ثانية.

المصدر: opennet.ru

إضافة تعليق