Stability AI telah menerbitkan model pembelajaran mesin, Stable Video Diffusion, yang dapat menghasilkan video pendek dari gambar. Model ini memperluas kemampuan proyek Stable Diffusion, yang sebelumnya terbatas pada sintesis gambar statis. Kode untuk alat pelatihan jaringan saraf tiruan dan pembangkitan gambar ditulis dalam bahasa Python menggunakan kerangka kerja PyTorch dan diterbitkan di bawah lisensi MIT. Model yang telah dilatih ini merupakan sumber terbuka di bawah lisensi Creative ML OpenRAIL-M yang permisif, sehingga memungkinkan penggunaan komersial.
Dua varian model tersedia untuk diunduh: SVD (Stable Video Diffusion), yang menghasilkan 14 bingkai pada resolusi 576×1024 berdasarkan gambar statis tertentu, dan SVD-XT, yang menghasilkan 25 bingkai. Pembuatan video dimungkinkan, baik tanpa gerakan maupun dengan rotasi kamera yang sangat lambat, dengan durasi tidak lebih dari 4 detik. Kontrol langsung model berdasarkan teks bahasa alami belum didukung, tetapi dimungkinkan untuk terlebih dahulu menyiapkan gambar sumber menggunakan model Stable Diffusion 2.1 yang lebih lama, lalu mengonversinya menjadi video menggunakan model SVD.
Kualitas video belum memberikan fotorealisme sempurna atau jaminan rendering wajah dan orang yang akurat. Dalam hal performa, model sumber terbuka yang diusulkan mengungguli analog proprietary dari Runway dan Pika Labs. Model ini dapat dengan mudah diadaptasi untuk berbagai tugas, seperti membuat figur tiga dimensi.

Yang juga patut dicatat adalah publikasi perangkat pembelajaran mesin Video-LLaVA, yang memungkinkan terciptanya representasi visual terpadu suatu objek, yang dibentuk dengan menggunakan foto dan rekaman video objek tersebut selama pelatihan. Sistem ini dapat digunakan, misalnya, untuk mengenali keberadaan objek yang sama dalam gambar dan video. Kode ini ditulis dalam Python dan didistribusikan di bawah lisensi Apache 2.0.
Sumber: opennet.ru
