Stability AI telah menerbitkan model pembelajaran mesin yang dipanggil Stable Video Diffusion yang boleh menjana video pendek daripada imej. Model ini memperluaskan keupayaan projek Stable Diffusion, sebelum ini terhad kepada sintesis imej statik. Kod untuk latihan rangkaian saraf dan alat penjanaan imej ditulis dalam Python menggunakan rangka kerja PyTorch dan diterbitkan di bawah lesen MIT. Model yang sudah terlatih dibuka di bawah lesen Creative ML OpenRAIL-M yang permisif, membenarkan penggunaan komersial.
Terdapat dua pilihan model yang tersedia untuk dimuat turun: SVD (Stable Video Diffusion) untuk menjana 14 bingkai dengan resolusi 576x1024 berdasarkan imej statik yang diberikan dan SVD-XT untuk menjana 25 bingkai. Ia adalah mungkin untuk menjana video tanpa pergerakan atau dengan putaran kamera yang sangat perlahan, bertahan tidak lebih daripada 4 saat. Kawalan model langsung berdasarkan perihalan teks bahasa semula jadi masih belum disokong, tetapi anda boleh menyediakan imej asal menggunakan model Stable Diffusion 2.1 lama dan kemudian menukarnya kepada video menggunakan model SVD.
Kualiti video belum lagi memberikan fotorealisme yang ideal dan jaminan pemaparan wajah dan orang yang betul. Dari segi prestasi, model terbuka yang dicadangkan mendahului analog proprietari daripada Runway dan Pika Labs. Model ini boleh disesuaikan dengan mudah untuk menyelesaikan pelbagai masalah, contohnya, ia boleh digunakan untuk membentuk angka tiga dimensi.

Selain itu, kami boleh ambil perhatian penerbitan kit alat pembelajaran mesin Video-LLaVA, yang membolehkan anda mencipta perwakilan visual bersatu objek, dibentuk berdasarkan penggunaan gambar dan rakaman video objek secara serentak semasa latihan. Sistem ini boleh digunakan, sebagai contoh, untuk mengenali kehadiran objek yang sama dalam imej dan video. Kod ini ditulis dalam Python dan diedarkan di bawah lesen Apache 2.0.
Sumber: opennet.ru
