Stability AI, şəkillərdən qısa videolar yarada bilən Stable Video Diffusion adlı maşın öyrənmə modelini nəşr etdi. Model əvvəllər statik təsvirlərin sintezi ilə məhdudlaşan Stable Diffusion layihəsinin imkanlarını genişləndirir. Neyron şəbəkə təlimi və təsvir yaratma vasitələri üçün kod PyTorch çərçivəsindən istifadə edərək Python dilində yazılmış və MIT lisenziyası altında nəşr edilmişdir. Artıq təlim keçmiş modellər kommersiya istifadəsinə icazə verən Creative ML OpenRAIL-M lisenziyası altında açıqdır.
Yükləmək üçün iki model variantı mövcuddur: verilmiş statik təsvirə əsaslanaraq 14x576 qətnamə ilə 1024 kadr yaratmaq üçün SVD (Stable Video Diffusion) və 25 kadr yaratmaq üçün SVD-XT. Hərəkətsiz və ya çox yavaş kamera fırlanması ilə 4 saniyədən çox olmayan video yaratmaq mümkündür. Təbii dildə mətn təsvirinə əsaslanan birbaşa model nəzarəti hələ dəstəklənmir, lakin siz əvvəlcə köhnə Stable Diffusion 2.1 modelindən istifadə edərək orijinal şəkli hazırlaya və sonra SVD modelindən istifadə edərək onu videoya çevirə bilərsiniz.
Video keyfiyyəti hələ ideal fotorealizmi və üzlərin və insanların düzgün göstərilməsinə zəmanət vermir. Performans baxımından təklif olunan açıq model Runway və Pika Labs-ın mülkiyyətçi analoqlarını qabaqlayır. Model müxtəlif problemləri həll etmək üçün asanlıqla uyğunlaşdırıla bilər, məsələn, üç ölçülü fiqurlar yaratmaq üçün istifadə edilə bilər.

Bundan əlavə, təlim zamanı obyektlərin eyni vaxtda fotoşəkilləri və video qeydlərinin istifadəsi əsasında formalaşan obyektin vahid vizual təsvirini yaratmağa imkan verən Video-LLaVA maşın öyrənmə alətlərinin nəşrini qeyd edə bilərik. Sistem, məsələn, şəkillərdə və videolarda eyni obyektlərin mövcudluğunu tanımaq üçün istifadə edilə bilər. Kod Python-da yazılmışdır və Apache 2.0 lisenziyası altında paylanmışdır.
Mənbə: opennet.ru
