Predstavljen sustav video sinteze Stable Video Diffusion

Stability AI objavio je model strojnog učenja pod nazivom Stable Video Diffusion koji može generirati kratke videozapise iz slika. Model proširuje mogućnosti projekta Stable Diffusion, prethodno ograničenog na sintezu statičnih slika. Kod za obuku neuronske mreže i alate za generiranje slika napisan je u Pythonu pomoću okvira PyTorch i objavljen pod licencom MIT-a. Već uvježbani modeli otvoreni su pod dopuštenom Creative ML OpenRAIL-M licencom, dopuštajući komercijalnu upotrebu.

Dostupne su dvije opcije modela za preuzimanje: SVD (Stable Video Diffusion) za generiranje 14 okvira rezolucije 576x1024 na temelju zadane statične slike i SVD-XT za generiranje 25 okvira. Moguće je generirati video bez pokreta ili s vrlo sporom rotacijom kamere, ne dulje od 4 sekunde. Izravna kontrola modela na temelju opisa teksta na prirodnom jeziku još nije podržana, ali prvo možete pripremiti izvornu sliku pomoću starog modela Stable Diffusion 2.1, a zatim je pretvoriti u video pomoću SVD modela.

Kvaliteta videa još ne osigurava idealan fotorealizam i zajamčeno ispravno renderiranje lica i ljudi. Što se tiče performansi, predloženi otvoreni model je ispred vlasničkih analoga iz Runwaya i Pika Labsa. Model se lako može prilagoditi za rješavanje raznih problema, na primjer, može se koristiti za oblikovanje trodimenzionalnih figura.

Reproduciraj videozapis

Dodatno, možemo primijetiti objavljivanje alata za strojno učenje Video-LLaVA, koji vam omogućuje stvaranje jedinstvenog vizualnog prikaza objekta, formiranog na temelju istovremene upotrebe fotografija i video zapisa objekata tijekom obuke. Sustav se može koristiti, na primjer, za prepoznavanje prisutnosti istih objekata na slikama i video zapisima. Kod je napisan u Pythonu i distribuiran pod licencom Apache 2.0.

Izvor: opennet.ru

Kupite pouzdan hosting za stranice s DDoS zaštitom, VPS VDS poslužiteljima 🔥 Kupite pouzdan web hosting sa DDoS zaštitom, VPS VDS servere | ProHoster