🥇سیستم سنتز ویدیوی پایدار Video Diffusion معرفی شد

Stability AI یک مدل یادگیری ماشینی به نام Stable Video Diffusion منتشر کرده است که می تواند ویدیوهای کوتاهی از تصاویر تولید کند. این مدل قابلیت های پروژه Stable Diffusion را که قبلاً محدود به سنتز تصاویر استاتیک بود، گسترش می دهد. کد آموزش شبکه عصبی و ابزارهای تولید تصویر در پایتون با استفاده از چارچوب PyTorch نوشته شده و تحت مجوز MIT منتشر شده است. مدل‌های قبلاً آموزش دیده تحت مجوز مجاز Creative ML OpenRAIL-M باز هستند و امکان استفاده تجاری را فراهم می‌کنند.

دو گزینه مدل برای دانلود وجود دارد: SVD (Stable Video Diffusion) برای تولید 14 فریم با وضوح 576x1024 بر اساس یک تصویر ثابت داده شده و SVD-XT برای تولید 25 فریم. امکان تولید ویدیو بدون حرکت یا با چرخش بسیار آهسته دوربین، حداکثر 4 ثانیه وجود دارد. کنترل مستقیم مدل بر اساس توضیحات متن زبان طبیعی هنوز پشتیبانی نمی‌شود، اما می‌توانید ابتدا تصویر اصلی را با استفاده از مدل قدیمی Stable Diffusion 2.1 تهیه کنید و سپس با استفاده از مدل SVD آن را به ویدیو تبدیل کنید.

کیفیت ویدیو هنوز فوتورئالیسم ایده آل و رندر صحیح تضمین شده از چهره ها و افراد را ارائه نمی دهد. از نظر عملکرد، مدل باز پیشنهادی از آنالوگ های اختصاصی Runway و Pika Labs جلوتر است. مدل را می توان به راحتی برای حل مسائل مختلف تطبیق داد، به عنوان مثال، می توان از آن برای شکل دادن فیگورهای سه بعدی استفاده کرد.

علاوه بر این، می‌توانیم به انتشار جعبه ابزار یادگیری ماشین Video-LLaVA اشاره کنیم که به شما امکان می‌دهد یک نمایش بصری یکپارچه از یک شی ایجاد کنید، که بر اساس استفاده همزمان از عکس‌ها و ضبط ویدیویی از اشیا در طول آموزش شکل می‌گیرد. برای مثال می توان از این سیستم برای تشخیص وجود همان اشیاء در تصاویر و ویدیوها استفاده کرد. کد به زبان پایتون نوشته شده و تحت مجوز آپاچی 2.0 توزیع شده است.

منبع: opennet.ru

سیستم سنتز ویدئویی پخش پایدار ویدئو معرفی شد

یوری گاگارین