Stability AI wis nerbitake model pembelajaran mesin sing diarani Stable Video Diffusion, sing bisa ngasilake video cendhak saka gambar. Model kasebut ngembangake kemampuan proyek Difusi Stabil, sing sadurunge diwatesi kanggo sintesis gambar statis. Kode kanggo alat kanggo latihan jaringan saraf lan ngasilake gambar ditulis nganggo Python nggunakake kerangka PyTorch lan diterbitake ing lisensi MIT. Model sing wis dilatih mbukak ing lisensi Creative ML OpenRAIL-M sing idin, sing ngidini panggunaan komersial.
Ana rong varian model sing kasedhiya kanggo diundhuh: SVD (Stable Video Diffusion) kanggo ngasilake 14 bingkai kanthi resolusi 576 × 1024 adhedhasar gambar statis sing diwenehake, lan SVD-XT kanggo ngasilake 25 bingkai. Sampeyan bisa nggawe video tanpa gerakan utawa kanthi rotasi kamera sing alon banget, ora luwih saka 4 detik. Kontrol langsung model adhedhasar katrangan teks ing basa alami durung didhukung, nanging bisa uga nyiyapake gambar asli kanthi nggunakake model Stable Diffusion 2.1 lawas banjur diowahi dadi video nggunakake model SVD.
Kualitas video durung nyedhiyakake fotorealisme sing cocog lan njamin rendering rai lan wong sing bener. Ing babagan kinerja, model mbukak sing diusulake luwih dhisik tinimbang analog proprietary saka Runway lan Pika Labs. Model kasebut bisa gampang diadaptasi kanggo ngatasi macem-macem masalah, contone, bisa digunakake kanggo mbentuk angka volumetrik.

Kajaba iku, kudu dicathet publikasi toolkit pembelajaran mesin Video-LLaVA, sing ngidini nggawe perwakilan visual siji obyek, dibentuk kanthi nggunakake foto lan rekaman video obyek sajrone latihan. Sistem kasebut bisa digunakake, contone, kanggo ngenali anané obyek sing padha ing gambar lan video. Kode kasebut ditulis nganggo Python lan disebarake miturut lisensi Apache 2.0.
Source: opennet.ru
