Stability AI, görüntülerden kısa videolar oluşturabilen Stable Video Difusion adlı bir makine öğrenme modeli yayınladı. Model, daha önce statik görüntülerin senteziyle sınırlı olan Stabil Difüzyon projesinin yeteneklerini genişletiyor. Sinir ağı eğitimi ve görüntü oluşturma araçlarının kodu, PyTorch çerçevesi kullanılarak Python'da yazılmış ve MIT lisansı altında yayınlanmıştır. Zaten eğitilmiş modeller, izin verilen Creative ML OpenRAIL-M lisansı altında açıktır ve ticari kullanıma olanak tanır.
İndirilebilecek iki model seçeneği vardır: Belirli bir statik görüntüye dayalı olarak 14x576 çözünürlükte 1024 kare oluşturmak için SVD (Sabit Video Dağıtımı) ve 25 kare oluşturmak için SVD-XT. Hareketsiz veya çok yavaş kamera dönüşüyle, 4 saniyeden fazla sürmeyen video oluşturmak mümkündür. Doğal dildeki metin açıklamasına dayalı doğrudan model kontrolü henüz desteklenmemektedir ancak önce eski Stable Diffusion 2.1 modelini kullanarak orijinal görüntüyü hazırlayabilir ve ardından SVD modelini kullanarak videoya dönüştürebilirsiniz.
Video kalitesi henüz ideal fotogerçekçilik ve yüzlerin ve insanların doğru şekilde görüntülenmesini garanti etmiyor. Performans açısından önerilen açık model, Runway ve Pika Labs'ın tescilli analoglarının ilerisindedir. Model çeşitli problemleri çözmek için kolaylıkla uyarlanabilir; örneğin üç boyutlu şekiller oluşturmak için kullanılabilir.

Ek olarak, eğitim sırasında nesnelerin fotoğraflarının ve video kayıtlarının aynı anda kullanılmasına dayalı olarak oluşturulan, bir nesnenin birleşik bir görsel temsilini oluşturmanıza olanak tanıyan Video-LLaVA makine öğrenimi araç setinin yayınlandığını da not edebiliriz. Sistem, örneğin görüntülerde ve videolarda aynı nesnelerin varlığını tanımak için kullanılabilir. Kod Python'da yazılmıştır ve Apache 2.0 lisansı altında dağıtılmaktadır.
Kaynak: opennet.ru
