„Stability AI“ paskelbė mašininio mokymosi modelį „Stable Video Diffusion“, kuris gali generuoti trumpus vaizdo įrašus iš vaizdų. Modelis išplečia Stable Diffusion projekto, anksčiau apsiribojusio statinių vaizdų sinteze, galimybes. Neuroninio tinklo mokymo ir vaizdų generavimo įrankių kodas parašytas Python, naudojant PyTorch sistemą, ir paskelbtas pagal MIT licenciją. Jau apmokyti modeliai yra atviri pagal leistiną Creative ML OpenRAIL-M licenciją, leidžiančią naudoti komerciniais tikslais.
Galima atsisiųsti dvi modelio parinktis: SVD (Stable Video Diffusion), skirtas generuoti 14 kadrų su 576x1024 skiriamąja geba, remiantis pateiktu statiniu vaizdu, ir SVD-XT, skirtas generuoti 25 kadrus. Galima generuoti vaizdo įrašą nejudant arba labai lėtu fotoaparato sukimu, trunkančiu ne ilgiau kaip 4 sekundes. Tiesioginis modelio valdymas, pagrįstas natūralios kalbos teksto aprašymu, dar nepalaikomas, tačiau pirmiausia galite paruošti originalų vaizdą naudodami seną Stable Diffusion 2.1 modelį ir tada konvertuoti jį į vaizdo įrašą naudodami SVD modelį.
Vaizdo įrašų kokybė dar nesuteikia idealaus fotorealizmo ir garantuoto teisingo veidų ir žmonių atvaizdavimo. Kalbant apie našumą, siūlomas atviras modelis lenkia patentuotus analogus iš Runway ir Pika Labs. Modelis lengvai pritaikomas sprendžiant įvairias problemas, pavyzdžiui, iš jo galima suformuoti erdvines figūras.

Papildomai galime pastebėti, kad buvo išleistas „Video-LLaVA“ mašininio mokymosi įrankių rinkinys, leidžiantis sukurti vieningą vaizdinį objekto atvaizdą, suformuotą remiantis vienu metu treniruočių metu naudojant objektų nuotraukas ir vaizdo įrašus. Sistema gali būti naudojama, pavyzdžiui, atpažinti tuos pačius objektus vaizduose ir vaizdo įrašuose. Kodas parašytas Python ir platinamas pagal Apache 2.0 licenciją.
Šaltinis: opennet.ru
