ينشر Facebook برنامج ترميز الصوت EnCodec باستخدام التعلم الآلي

قدم Meta/Facebook (المحظور في الاتحاد الروسي) برنامج ترميز صوتي جديد، EnCodec، والذي يستخدم أساليب التعلم الآلي لزيادة نسبة الضغط دون فقدان الجودة. يمكن استخدام برنامج الترميز لبث الصوت في الوقت الفعلي ولترميزه لحفظ الملفات لاحقًا. تمت كتابة تطبيق EnCodec المرجعي بلغة Python باستخدام إطار عمل PyTorch وهو مرخص بموجب ترخيص CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) للاستخدام غير التجاري فقط.

يتم تقديم نموذجين جاهزين للتنزيل:

  • نموذج سببي يستخدم معدل أخذ عينات يبلغ 24 كيلو هرتز، ويدعم الصوت أحادي الصوت فقط، ويتم تدريبه على بيانات صوتية متنوعة (مناسبة لترميز الكلام). يمكن استخدام النموذج لحزم البيانات الصوتية للإرسال بمعدلات بتات تبلغ 1.5 و3 و6 و12 و24 كيلوبت في الثانية.
  • نموذج غير سببي يستخدم معدل أخذ عينات يبلغ 48 كيلو هرتز، ويدعم صوت الاستريو ويتم تدريبه على الموسيقى فقط. يدعم النموذج معدلات البت 3 و6 و12 و24 كيلوبت في الثانية.

تم إعداد نموذج لغة إضافي لكل نموذج، مما يتيح لك تحقيق زيادة كبيرة في نسبة الضغط (تصل إلى 40٪) دون فقدان الجودة. على عكس المشاريع التي تم تطويرها مسبقًا والتي تستخدم أساليب التعلم الآلي لضغط الصوت، يمكن استخدام EnCodec ليس فقط لتغليف الكلام، ولكن أيضًا لضغط الموسيقى بمعدل أخذ عينات يبلغ 48 كيلو هرتز، وهو ما يتوافق مع مستوى الأقراص الصوتية المضغوطة. وفقًا لمطوري برنامج الترميز الجديد، عند الإرسال بمعدل بت يبلغ 64 كيلوبت في الثانية مقارنة بتنسيق MP3، فقد تمكنوا من زيادة درجة ضغط الصوت بحوالي عشر مرات مع الحفاظ على نفس مستوى الجودة (على سبيل المثال، عند استخدام MP3، مطلوب عرض نطاق ترددي يبلغ 64 كيلوبت في الثانية، للإرسال بنفس الجودة في EnCodec يكفي 6 كيلوبت في الثانية).

تم بناء بنية برنامج الترميز على شبكة عصبية ذات بنية "محولة" وتستند إلى أربع روابط: التشفير، والمكمم، ووحدة فك التشفير، والمميز. يقوم المشفر باستخراج معلمات البيانات الصوتية وتحويل الدفق المعبأ إلى معدل إطارات أقل. يقوم جهاز الكمي (RVQ، Residual Vector Quantizer) بتحويل إخراج الدفق بواسطة جهاز التشفير إلى مجموعات من الحزم، وضغط المعلومات بناءً على معدل البت المحدد. إن مخرجات جهاز القياس الكمي عبارة عن تمثيل مضغوط للبيانات، وهو مناسب للنقل عبر الشبكة أو الحفظ على القرص.

يقوم جهاز فك التشفير بفك تشفير التمثيل المضغوط للبيانات وإعادة بناء الموجة الصوتية الأصلية. ويعمل التمييز على تحسين جودة العينات المولدة، مع الأخذ بعين الاعتبار نموذج الإدراك السمعي البشري. بغض النظر عن مستوى الجودة ومعدل البت، تتميز النماذج المستخدمة للتشفير وفك التشفير بمتطلبات موارد متواضعة إلى حد ما (يتم إجراء الحسابات اللازمة للتشغيل في الوقت الفعلي على نواة وحدة المعالجة المركزية واحدة).

ينشر Facebook برنامج ترميز الصوت EnCodec باستخدام التعلم الآلي


المصدر: opennet.ru

إضافة تعليق