A Stability AI kiadott egy gépi tanulási modellt Stable Video Diffusion néven, amely képes rövid videókat generálni képekből. A modell kibővíti a Stable Diffusion projekt lehetőségeit, amely korábban statikus képek szintézisére korlátozódott. A neurális hálózatok képzési és képgeneráló eszközeinek kódja Python nyelven van megírva a PyTorch keretrendszer segítségével, és az MIT licenc alatt van közzétéve. A már betanított modellek nyitva állnak a megengedő Creative ML OpenRAIL-M licenc alatt, lehetővé téve a kereskedelmi felhasználást.
Letölthető két modellopció: SVD (Stable Video Diffusion) 14 képkocka generálására adott statikus kép alapján 576x1024 felbontással és SVD-XT 25 képkocka generálására. Lehetőség van videó létrehozására mozgás nélkül vagy nagyon lassú kameraforgatással, legfeljebb 4 másodpercig. A természetes nyelvű szövegleíráson alapuló közvetlen modellvezérlés még nem támogatott, de először elkészítheti az eredeti képet a régi Stable Diffusion 2.1 modellel, majd az SVD-modell segítségével videóvá konvertálhatja.
A videó minősége még nem biztosítja az ideális fotorealizmust és az arcok és emberek garantáltan helyes megjelenítését. A teljesítmény tekintetében a javasolt nyílt modell megelőzi a Runway és a Pika Labs szabadalmaztatott analógjait. A modell könnyen adaptálható különféle problémák megoldására, például háromdimenziós figurák formálására használható.

Mindemellett megjegyezzük a Video-LLaVA gépi tanulási eszköztár megjelenését, amely lehetővé teszi egy objektum egységes vizuális megjelenítését, amely a tárgyakról készült fényképek és videofelvételek edzés közbeni egyidejű felhasználásán alapul. A rendszer felhasználható például ugyanazon objektumok jelenlétének felismerésére képeken és videókon. A kód Pythonban íródott, és az Apache 2.0 licenc alatt terjeszthető.
Forrás: opennet.ru
