Stability AI ha publicat un model d'aprenentatge automàtic anomenat Stable Video Diffusion que pot generar vídeos curts a partir d'imatges. El model amplia les capacitats del projecte Stable Diffusion, abans limitat a la síntesi d'imatges estàtiques. El codi per a les eines de formació i generació d'imatges de xarxes neuronals està escrit en Python utilitzant el marc PyTorch i es publica sota la llicència MIT. Els models ja entrenats estan oberts sota la permissiva llicència Creative ML OpenRAIL-M, que permet l'ús comercial.
Hi ha dues opcions de model disponibles per a la seva descàrrega: SVD (Stable Video Diffusion) per generar 14 fotogrames amb una resolució de 576x1024 basada en una imatge estàtica determinada i SVD-XT per generar 25 fotogrames. És possible generar vídeo sense moviment o amb una rotació de càmera molt lenta, amb una durada no superior a 4 segons. El control directe del model basat en la descripció del text en llenguatge natural encara no s'admet, però primer podeu preparar la imatge original amb l'antic model Stable Diffusion 2.1 i després convertir-la en vídeo amb el model SVD.
La qualitat del vídeo encara no ofereix un fotorealisme ideal i una representació correcta de les cares i les persones garantides. Pel que fa al rendiment, el model obert proposat està per davant dels anàlegs propietaris de Runway i Pika Labs. El model es pot adaptar fàcilment per resoldre diversos problemes, per exemple, es pot utilitzar per formar figures tridimensionals.

A més, cal destacar la publicació del kit d'eines d'aprenentatge automàtic Video-LLaVA, que permet crear una representació visual unificada d'un objecte, formada a partir de l'ús simultània de fotografies i enregistraments de vídeo d'objectes durant l'entrenament. El sistema es pot utilitzar, per exemple, per reconèixer la presència dels mateixos objectes en imatges i vídeos. El codi està escrit en Python i es distribueix sota la llicència Apache 2.0.
Font: opennet.ru
