Stability AI zveřejnila model strojového učení nazvaný Stable Video Diffusion, který dokáže generovat krátká videa z obrázků. Model rozšiřuje možnosti projektu Stable Diffusion, dříve omezeného na syntézu statických obrazů. Kód pro nástroje pro trénování neuronových sítí a generování obrázků je napsán v Pythonu pomocí frameworku PyTorch a publikován pod licencí MIT. Již vyškolené modely jsou otevřeny pod licencí Creative ML OpenRAIL-M, což umožňuje komerční využití.
Ke stažení jsou k dispozici dvě možnosti modelu: SVD (Stable Video Diffusion) pro generování 14 snímků s rozlišením 576x1024 na základě daného statického snímku a SVD-XT pro generování 25 snímků. Je možné generovat video bez pohybu nebo s velmi pomalým otáčením kamery, které netrvá déle než 4 sekundy. Přímé ovládání modelu založené na textovém popisu v přirozeném jazyce zatím není podporováno, ale můžete nejprve připravit originální obrázek pomocí starého modelu Stable Diffusion 2.1 a poté jej převést na video pomocí modelu SVD.
Kvalita videa zatím neposkytuje ideální fotorealismus a zaručené správné vykreslení tváří a osob. Z hlediska výkonu je navrhovaný otevřený model před proprietárními analogy od Runway a Pika Labs. Model lze snadno upravit pro řešení různých problémů, lze z něj například tvořit trojrozměrné postavy.

Dále si můžeme všimnout vydání sady nástrojů strojového učení Video-LLaVA, která umožňuje vytvořit jednotnou vizuální reprezentaci objektu, vytvořenou na základě použití současně fotografií a videozáznamů objektů během tréninku. Systém lze použít například k rozpoznání přítomnosti stejných objektů na snímcích a videích. Kód je napsán v Pythonu a distribuován pod licencí Apache 2.0.
Zdroj: opennet.ru
