Stability AI یک مدل یادگیری ماشینی به نام Stable Video Diffusion منتشر کرده است که می تواند ویدیوهای کوتاهی از تصاویر تولید کند. این مدل قابلیت های پروژه Stable Diffusion را که قبلاً محدود به سنتز تصاویر استاتیک بود، گسترش می دهد. کد آموزش شبکه عصبی و ابزارهای تولید تصویر در پایتون با استفاده از چارچوب PyTorch نوشته شده و تحت مجوز MIT منتشر شده است. مدلهای قبلاً آموزش دیده تحت مجوز مجاز Creative ML OpenRAIL-M باز هستند و امکان استفاده تجاری را فراهم میکنند.
دو گزینه مدل برای دانلود وجود دارد: SVD (Stable Video Diffusion) برای تولید 14 فریم با وضوح 576x1024 بر اساس یک تصویر ثابت داده شده و SVD-XT برای تولید 25 فریم. امکان تولید ویدیو بدون حرکت یا با چرخش بسیار آهسته دوربین، حداکثر 4 ثانیه وجود دارد. کنترل مستقیم مدل بر اساس توضیحات متن زبان طبیعی هنوز پشتیبانی نمیشود، اما میتوانید ابتدا تصویر اصلی را با استفاده از مدل قدیمی Stable Diffusion 2.1 تهیه کنید و سپس با استفاده از مدل SVD آن را به ویدیو تبدیل کنید.
کیفیت ویدیو هنوز فوتورئالیسم ایده آل و رندر صحیح تضمین شده از چهره ها و افراد را ارائه نمی دهد. از نظر عملکرد، مدل باز پیشنهادی از آنالوگ های اختصاصی Runway و Pika Labs جلوتر است. مدل را می توان به راحتی برای حل مسائل مختلف تطبیق داد، به عنوان مثال، می توان از آن برای شکل دادن فیگورهای سه بعدی استفاده کرد.

علاوه بر این، میتوانیم به انتشار جعبه ابزار یادگیری ماشین Video-LLaVA اشاره کنیم که به شما امکان میدهد یک نمایش بصری یکپارچه از یک شی ایجاد کنید، که بر اساس استفاده همزمان از عکسها و ضبط ویدیویی از اشیا در طول آموزش شکل میگیرد. برای مثال می توان از این سیستم برای تشخیص وجود همان اشیاء در تصاویر و ویدیوها استفاده کرد. کد به زبان پایتون نوشته شده و تحت مجوز آپاچی 2.0 توزیع شده است.
منبع: opennet.ru
