Stability AI publicou un modelo de aprendizaxe automática chamado Stable Video Diffusion que pode xerar vídeos curtos a partir de imaxes. O modelo amplía as capacidades do proxecto Stable Diffusion, limitado anteriormente á síntese de imaxes estáticas. O código para as ferramentas de formación de redes neuronais e xeración de imaxes está escrito en Python usando o marco PyTorch e publicado baixo a licenza MIT. Os modelos xa adestrados están abertos baixo a licenza permisiva Creative ML OpenRAIL-M, que permite o seu uso comercial.
Hai dúas opcións de modelo dispoñibles para descargar: SVD (Stable Video Diffusion) para xerar 14 fotogramas cunha resolución de 576x1024 en base a unha determinada imaxe estática e SVD-XT para xerar 25 fotogramas. É posible xerar vídeo sen movemento ou con rotación da cámara moi lenta, cunha duración non superior a 4 segundos. Aínda non se admite o control directo do modelo baseado na descrición do texto en linguaxe natural, pero primeiro podes preparar a imaxe orixinal usando o antigo modelo Stable Diffusion 2.1 e convertela en vídeo usando o modelo SVD.
A calidade do vídeo aínda non ofrece un fotorrealismo ideal nin unha representación correcta das caras e das persoas. En canto ao rendemento, o modelo aberto proposto está por diante dos análogos propietarios de Runway e Pika Labs. O modelo pódese adaptar facilmente para resolver varios problemas, por exemplo, pódese usar para formar figuras tridimensionais.

Ademais, destaca a publicación do kit de ferramentas de aprendizaxe automática Video-LLaVA, que permite crear unha representación visual unificada dun obxecto, formada a partir do uso simultáneo de fotografías e gravacións de vídeo de obxectos durante o adestramento. O sistema pódese utilizar, por exemplo, para recoñecer a presenza dos mesmos obxectos en imaxes e vídeos. O código está escrito en Python e distribúese baixo a licenza Apache 2.0.
Fonte: opennet.ru
