Stability AI ha pubblicato un modello di apprendimento automatico, Stable Video Diffusion, in grado di generare brevi video a partire da immagini. Il modello amplia le capacità del progetto Stable Diffusion, che in precedenza si limitava alla sintesi di immagini statiche. Il codice per gli strumenti di addestramento della rete neurale e di generazione di immagini è scritto in Python utilizzando il framework PyTorch e pubblicato con licenza MIT. I modelli addestrati sono open source con licenza Creative ML OpenRAIL-M, che ne consente l'uso commerciale.
Sono disponibili per il download due varianti del modello: SVD (Stable Video Diffusion), che genera 14 frame a risoluzione 576×1024 sulla base di un'immagine statica, e SVD-XT, che genera 25 frame. La generazione video è possibile sia a immobile che con rotazione molto lenta della telecamera, della durata massima di 4 secondi. Il controllo diretto del modello basato su testo in linguaggio naturale non è ancora supportato, ma è possibile preparare prima l'immagine sorgente utilizzando il vecchio modello Stable Diffusion 2.1 e poi convertirla in video utilizzando il modello SVD.
La qualità video non garantisce ancora un fotorealismo perfetto né una resa accurata garantita di volti e persone. In termini di prestazioni, il modello open source proposto supera i modelli analoghi proprietari di Runway e Pika Labs. Il modello può essere facilmente adattato a diverse attività, come la creazione di figure tridimensionali.

Degna di nota è anche la pubblicazione del toolkit di apprendimento automatico Video-LLaVA, che consente la creazione di una rappresentazione visiva unificata di un oggetto, ottenuta utilizzando sia fotografie che registrazioni video dell'oggetto durante l'addestramento. Il sistema può essere utilizzato, ad esempio, per riconoscere la presenza degli stessi oggetti in immagini e video. Il codice è scritto in Python e distribuito con licenza Apache 2.0.
Fonte: opennet.ru
