Stability AI نے Stable Video Diffusion نامی مشین لرننگ ماڈل شائع کیا ہے جو تصاویر سے مختصر ویڈیوز بنا سکتا ہے۔ ماڈل اسٹیبل ڈفیوژن پروجیکٹ کی صلاحیتوں کو بڑھاتا ہے، جو پہلے جامد امیجز کی ترکیب تک محدود تھا۔ نیورل نیٹ ورک ٹریننگ اور امیج جنریشن ٹولز کا کوڈ PyTorch فریم ورک کا استعمال کرتے ہوئے Python میں لکھا گیا ہے اور MIT لائسنس کے تحت شائع کیا گیا ہے۔ پہلے سے تربیت یافتہ ماڈل اجازت نامہ تخلیقی ML OpenRAIL-M لائسنس کے تحت کھلے ہیں، تجارتی استعمال کی اجازت دیتے ہیں۔
ڈاؤن لوڈ کے لیے دو ماڈل آپشنز دستیاب ہیں: SVD (Stable Video Diffusion) 14x576 کے ریزولوشن کے ساتھ 1024 فریمز بنانے کے لیے ایک دی گئی سٹیٹک امیج کی بنیاد پر اور SVD-XT 25 فریمز بنانے کے لیے۔ بغیر حرکت کے یا انتہائی سست کیمرے کی گردش کے ساتھ ویڈیو بنانا ممکن ہے، جو 4 سیکنڈ سے زیادہ نہیں چلتی ہے۔ قدرتی زبان کے متن کی تفصیل پر مبنی براہ راست ماڈل کنٹرول ابھی تک تعاون یافتہ نہیں ہے، لیکن آپ پہلے پرانے Stable Diffusion 2.1 ماڈل کا استعمال کرتے ہوئے اصل تصویر تیار کر سکتے ہیں اور پھر SVD ماڈل کا استعمال کرتے ہوئے اسے ویڈیو میں تبدیل کر سکتے ہیں۔
ویڈیو کا معیار ابھی تک مثالی فوٹو ریئلزم فراہم نہیں کرتا ہے اور چہروں اور لوگوں کی صحیح رینڈرنگ کی ضمانت دیتا ہے۔ کارکردگی کے لحاظ سے، مجوزہ اوپن ماڈل رن وے اور پیکا لیبز کے ملکیتی اینالاگ سے آگے ہے۔ ماڈل کو مختلف مسائل کو حل کرنے کے لیے آسانی سے ڈھال لیا جا سکتا ہے، مثال کے طور پر، اسے سہ جہتی اعداد و شمار بنانے کے لیے استعمال کیا جا سکتا ہے۔

مزید برآں، ہم ویڈیو-LLaVA مشین لرننگ ٹول کٹ کی اشاعت کو نوٹ کر سکتے ہیں، جو آپ کو تربیت کے دوران اشیاء کی بیک وقت تصاویر اور ویڈیو ریکارڈنگ کے استعمال پر مبنی کسی شے کی ایک متحد بصری نمائندگی بنانے کی اجازت دیتا ہے۔ نظام کو استعمال کیا جا سکتا ہے، مثال کے طور پر، تصاویر اور ویڈیوز میں ایک جیسی اشیاء کی موجودگی کو پہچاننے کے لیے۔ کوڈ Python میں لکھا گیا ہے اور Apache 2.0 لائسنس کے تحت تقسیم کیا گیا ہے۔
ماخذ: opennet.ru
