نظام التعلم الآلي بالانتشار المستقر والمكيف لتوليف الموسيقى

يقوم مشروع Riffusion بتطوير نسخة من نظام التعلم الآلي Stable Diffusion، الذي تم تكييفه لتوليد الموسيقى بدلاً من الصور. يمكن تركيب الموسيقى من وصف نصي باللغة الطبيعية أو بناءً على قالب مقترح. تمت كتابة مكونات التوليف الموسيقي بلغة Python باستخدام إطار عمل PyTorch وهي متاحة بموجب ترخيص MIT. يتم تنفيذ ربط الواجهة في TypeScript ويتم توزيعه أيضًا بموجب ترخيص MIT. يتم ترخيص النماذج المدربة بموجب ترخيص Creative ML OpenRAIL-M المسموح به للاستخدام التجاري.

المشروع مثير للاهتمام لأنه يستمر في استخدام نماذج "تحويل النص إلى صورة" و"صورة إلى صورة" لتوليد الموسيقى، ولكنه يعالج المخططات الطيفية كصور. بمعنى آخر، لا يتم تدريب تقنية Stable Diffusion الكلاسيكية على الصور الفوتوغرافية والصور الفوتوغرافية، بل على صور المخططات الطيفية التي تعكس التغيرات في تردد وسعة الموجة الصوتية بمرور الوقت. وفقًا لذلك، يتم أيضًا تشكيل مخطط طيفي عند الإخراج، والذي يتم بعد ذلك تحويله إلى تمثيل صوتي.

نظام التعلم الآلي بالانتشار المستقر والمكيف لتوليف الموسيقى

يمكن أيضًا استخدام هذه الطريقة لتعديل التراكيب الصوتية الموجودة وتوليف الموسيقى من عينة، على غرار تعديل الصورة في Stable Diffusion. على سبيل المثال، يمكن للتوليد أخذ عينات من المخططات الطيفية بأسلوب مرجعي، أو الجمع بين أنماط مختلفة، أو إجراء انتقالات سلسة من نمط إلى آخر، أو إجراء تغييرات على صوت موجود لحل مشكلات مثل زيادة حجم الآلات الفردية، وتغيير الإيقاع، وتغيير الادوات. تُستخدم العينات أيضًا لإنشاء مقطوعات موسيقية طويلة التشغيل، تتألف من سلسلة من المقاطع المتقاربة والمتقاربة والتي تختلف قليلاً بمرور الوقت. يتم دمج المقاطع التي تم إنشاؤها بشكل منفصل في دفق مستمر باستخدام استيفاء المعلمات الداخلية للنموذج.

نظام التعلم الآلي بالانتشار المستقر والمكيف لتوليف الموسيقى

يتم استخدام تحويل فورييه ذو النوافذ لإنشاء مخطط طيفي من الصوت. عند إعادة إنشاء الصوت من مخطط الطيف، تنشأ مشكلة في تحديد الطور (يوجد فقط التردد والسعة في المخطط الطيفي)، لإعادة البناء الذي يتم استخدام خوارزمية تقريب Griffin-Lim.



المصدر: opennet.ru

إضافة تعليق