Stability AI tasvirlardan qisqa videolarni yaratishi mumkin bo'lgan Stable Video Diffusion nomli mashinani o'rganish modelini nashr etdi. Model ilgari statik tasvirlarni sintez qilish bilan chegaralangan Stable Diffusion loyihasining imkoniyatlarini kengaytiradi. Neyron tarmog'ini o'qitish va tasvirni yaratish vositalari uchun kod PyTorch tizimidan foydalangan holda Python tilida yozilgan va MIT litsenziyasi ostida nashr etilgan. Allaqachon o'qitilgan modellar ruxsat beruvchi Creative ML OpenRAIL-M litsenziyasi ostida ochiq bo'lib, tijorat maqsadlarida foydalanishga ruxsat beradi.
Yuklab olish uchun ikkita model varianti mavjud: berilgan statik tasvir asosida 14x576 oʻlchamli 1024 ta kadrni yaratish uchun SVD (Barqaror video diffuziya) va 25 ta kadr yaratish uchun SVD-XT. Harakatsiz yoki juda sekin kamera aylanishi bilan 4 soniyadan ko'p bo'lmagan videoni yaratish mumkin. Tabiiy tildagi matn tavsifiga asoslangan to'g'ridan-to'g'ri modelni boshqarish hali qo'llab-quvvatlanmaydi, lekin siz avval eski Stable Diffusion 2.1 modelidan foydalanib asl tasvirni tayyorlashingiz va keyin uni SVD modeli yordamida videoga aylantirishingiz mumkin.
Video sifati hali ideal fotorealizmni va yuzlar va odamlarni to'g'ri ko'rsatishni kafolatlamaydi. Ishlash darajasi bo'yicha tavsiya etilgan ochiq model Runway va Pika Labs kompaniyasining xususiy analoglaridan oldinda. Model turli muammolarni hal qilish uchun osongina moslashtirilishi mumkin, masalan, uch o'lchamli raqamlarni shakllantirish uchun ishlatilishi mumkin.

Bundan tashqari, biz video-LLaVA mashinasini o'rganish uchun asboblar to'plamining nashr etilishini ta'kidlashimiz mumkin, bu sizga mashg'ulot paytida ob'ektlarning bir vaqtning o'zida fotosuratlari va video yozuvlaridan foydalanish asosida shakllangan ob'ektning yagona vizual tasvirini yaratishga imkon beradi. Tizimdan, masalan, tasvir va videolarda bir xil ob'ektlar mavjudligini aniqlash uchun foydalanish mumkin. Kod Python-da yozilgan va Apache 2.0 litsenziyasi ostida tarqatiladi.
Manba: opennet.ru
