مستحکم بازی مشین سیکھنے کا نظام موسیقی کی ترکیب کے لیے ڈھال لیا گیا۔

Riffusion پروجیکٹ مستحکم ڈفیوژن مشین لرننگ سسٹم کی مختلف شکلوں کو تیار کرتا ہے جو امیجز کی بجائے موسیقی پیدا کرنے کے لیے ڈھال لیا گیا ہے۔ موسیقی کو قدرتی زبان میں متنی وضاحت کے ذریعہ یا تجویز کردہ ٹیمپلیٹ کی بنیاد پر ترکیب کیا جاسکتا ہے۔ موسیقی کی ترکیب کے اجزاء PyTorch فریم ورک کا استعمال کرتے ہوئے Python میں لکھے گئے ہیں اور MIT لائسنس کے تحت دستیاب ہیں۔ انٹرفیس کے ساتھ پابند TypeScript زبان میں لاگو کیا جاتا ہے اور MIT لائسنس کے تحت بھی تقسیم کیا جاتا ہے۔ تربیت یافتہ ماڈلز کو تجارتی استعمال کے لیے تخلیقی ML OpenRAIL-M اجازت نامے کے تحت جاری کیا گیا ہے۔

یہ پروجیکٹ اس لحاظ سے دلچسپ ہے کہ یہ میوزک جنریشن کے لیے "ٹیکسٹ ٹو امیج" اور "امیج ٹو امیج" ماڈلز کا استعمال کرتا رہتا ہے، لیکن اسپیکٹروگرام کو تصویر کے طور پر جوڑتا ہے۔ دوسرے الفاظ میں، کلاسک مستحکم بازی کی تربیت تصویروں اور تصویروں پر نہیں، بلکہ سپیکٹروگرامس کی تصاویر پر کی جاتی ہے جو وقت کے ساتھ ساتھ آواز کی لہر کی تعدد اور طول و عرض میں تبدیلی کی عکاسی کرتی ہے۔ اس کے مطابق، آؤٹ پٹ پر ایک سپیکٹروگرام بھی بنتا ہے، جسے پھر آڈیو نمائندگی میں تبدیل کر دیا جاتا ہے۔

مستحکم بازی مشین سیکھنے کا نظام موسیقی کی ترکیب کے لیے ڈھال لیا گیا۔

یہ طریقہ موجودہ صوتی کمپوزیشن اور نمونہ موسیقی کی ترکیب میں ترمیم کرنے کے لیے بھی استعمال کیا جا سکتا ہے، جیسا کہ Stable Diffusion میں امیج میں ترمیم کی جاتی ہے۔ مثال کے طور پر، نسل ایک حوالہ انداز کے ساتھ نمونہ اسپیکٹروگرام سیٹ کر سکتی ہے، مختلف طرزوں کو یکجا کر سکتی ہے، ایک انداز سے دوسرے انداز میں ہموار منتقلی انجام دے سکتی ہے، یا کسی موجودہ آواز میں تبدیلیاں کر سکتی ہے جیسے کہ انفرادی آلات کا حجم بڑھانا، تال تبدیل کرنا اور آلات کو تبدیل کرنا. پیٹرن طویل عرصے سے چلنے والی کمپوزیشنز بنانے کے لیے بھی استعمال کیے جاتے ہیں، جو کہ ایک دوسرے کے قریب ہونے والے حصئوں کی ایک سیریز پر مشتمل ہوتے ہیں، جو وقت کے ساتھ ساتھ قدرے مختلف ہوتے ہیں۔ الگ الگ تیار کردہ ٹکڑے ماڈل کے اندرونی پیرامیٹرز کو انٹرپول کرکے ایک مسلسل ندی میں جوڑ دیے جاتے ہیں۔

مستحکم بازی مشین سیکھنے کا نظام موسیقی کی ترکیب کے لیے ڈھال لیا گیا۔

آواز سے سپیکٹروگرام بنانے کے لیے، ونڈو والا فوئیر ٹرانسفارم استعمال کیا جاتا ہے۔ سپیکٹروگرام سے آواز کو دوبارہ تخلیق کرتے وقت، مرحلے کا تعین کرنے میں ایک مسئلہ ہوتا ہے (صرف فریکوئنسی اور طول و عرض سپیکٹروگرام پر موجود ہیں)، جس کی تعمیر نو کے لیے Griffin-Lim approximation algorithm استعمال کیا جاتا ہے۔



ماخذ: opennet.ru

نیا تبصرہ شامل کریں