Stability AI on julkaissut koneoppimismallin nimeltä Stable Video Diffusion, joka voi luoda lyhyitä videoita kuvista. Malli laajentaa Stable Diffusion -projektin ominaisuuksia, jotka aiemmin rajoittuivat staattisten kuvien syntetisointiin. Neuroverkon koulutus- ja kuvienluontityökalujen koodi on kirjoitettu Pythonilla käyttäen PyTorch-kehystä ja julkaistu MIT-lisenssillä. Koulutetut mallit ovat avoimen lähdekoodin Creative ML OpenRAIL-M -lisenssillä, mikä sallii kaupallisen käytön.
Ladattavissa on kaksi mallivarianttia: SVD (Stable Video Diffusion), joka tuottaa 14 kuvaa 576 × 1024 -resoluutiolla annetun staattisen kuvan perusteella, ja SVD-XT, joka tuottaa 25 kuvaa. Videon luominen on mahdollista joko liikkumattomana tai erittäin hitaalla kameran pyörityksellä, enintään 4 sekunnin ajan. Mallin suoraa ohjausta luonnollisen kielen tekstin perusteella ei vielä tueta, mutta on mahdollista ensin valmistella lähdekuva käyttämällä vanhempaa Stable Diffusion 2.1 -mallia ja sitten muuntaa se videoksi käyttämällä SVD-mallia.
Videon laatu ei vielä tarjoa täydellistä fotorealismia tai taattua kasvojen ja ihmisten tarkkaa renderöintiä. Suorituskyvyn osalta ehdotettu avoimen lähdekoodin malli ylittää Runwayn ja Pika Labsin omat analogit. Mallia voidaan helposti mukauttaa erilaisiin tehtäviin, kuten kolmiulotteisten kuvioiden luomiseen.

Huomionarvoista on myös Video-LLaVA-koneoppimistyökalupakin julkaisu, jonka avulla voidaan luoda yhtenäinen visuaalinen esitys kohteesta, joka muodostetaan käyttämällä sekä valokuvia että videotallenteita kohteesta koulutuksen aikana. Järjestelmää voidaan käyttää esimerkiksi samojen kohteiden tunnistamiseen kuvissa ja videoissa. Koodi on kirjoitettu Pythonilla ja jaettu Apache 2.0 -lisenssillä.
Lähde: opennet.ru
