Ang Stability AI ay nag-publish ng isang machine learning model, Stable Video Diffusion, na maaaring makabuo ng maiikling video mula sa mga larawan. Pinapalawak ng modelo ang mga kakayahan ng proyekto ng Stable Diffusion, na dati ay limitado sa pag-synthesize ng mga static na larawan. Ang code para sa pagsasanay sa neural network at mga tool sa pagbuo ng imahe ay nakasulat sa Python gamit ang PyTorch framework at nai-publish sa ilalim ng lisensya ng MIT. Ang mga sinanay na modelo ay open sourced sa ilalim ng Creative ML OpenRAIL-M permissive na lisensya, na nagpapahintulot sa komersyal na paggamit.
Dalawang variant ng modelo ang available para sa pag-download: SVD (Stable Video Diffusion), na bumubuo ng 14 na frame sa 576×1024 na resolution batay sa isang partikular na static na larawan, at SVD-XT, na bumubuo ng 25 frame. Posible ang pagbuo ng video, hindi gumagalaw o may napakabagal na pag-ikot ng camera, na tumatagal ng hindi hihigit sa 4 na segundo. Hindi pa sinusuportahan ang direktang kontrol ng modelo batay sa text ng natural na wika, ngunit posibleng ihanda muna ang pinagmulang larawan gamit ang mas lumang modelo ng Stable Diffusion 2.1 at pagkatapos ay i-convert ito sa video gamit ang SVD model.
Ang kalidad ng video ay hindi pa nagbibigay ng perpektong photorealism o garantisadong tumpak na pag-render ng mga mukha at tao. Sa mga tuntunin ng pagganap, ang iminungkahing open-source na modelo ay higit na gumaganap sa mga proprietary analogs mula sa Runway at Pika Labs. Ang modelo ay madaling iakma sa iba't ibang gawain, tulad ng paglikha ng mga three-dimensional na figure.

Kapansin-pansin din ang paglalathala ng Video-LLaVA machine learning toolkit, na nagbibigay-daan sa paglikha ng isang pinag-isang visual na representasyon ng isang bagay, na nabuo sa pamamagitan ng paggamit ng parehong mga larawan at video recording ng bagay sa panahon ng pagsasanay. Maaaring gamitin ang system, halimbawa, upang makilala ang pagkakaroon ng parehong mga bagay sa mga larawan at video. Ang code ay nakasulat sa Python at ipinamahagi sa ilalim ng lisensya ng Apache 2.0.
Pinagmulan: opennet.ru
