Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi

Stability AI, təklif olunan şablon və ya təbii dil mətn təsviri əsasında şəkilləri sintez etmək və dəyişdirmək qabiliyyətinə malik olan Stable Diffusion maşın öyrənmə sisteminin ikinci nəşrini nəşr etdi. Neyron şəbəkə təlimi və təsvirin yaradılması üçün alətlərin kodu PyTorch çərçivəsindən istifadə edərək Python dilində yazılmış və MIT lisenziyası altında nəşr edilmişdir. Artıq təlim keçmiş modellər kommersiya istifadəsinə icazə verən Creative ML OpenRAIL-M icazəli lisenziyası altında açıqdır. Bundan əlavə, demo onlayn şəkil generatoru mövcuddur.

Stabil diffuziyanın yeni nəşrində əsas təkmilləşdirmələr:

  • Mətnin təsviri əsasında təsvirin sintezi üçün yeni model — SD2.0-v — yaradılmışdır ki, bu da 768×768 təsvir ölçüsündə şəkillərin yaradılmasını dəstəkləyir. Yeni model mətn təsvirləri olan 5 milyard təsvirdən ibarət LAION-5.85B kolleksiyasından istifadə etməklə öyrədildi. Model Stable Diffusion 1.5 modeli ilə eyni parametrlər dəstindən istifadə edir, lakin əsaslı şəkildə fərqli OpenCLIP-ViT/H kodlayıcısından istifadəyə keçidlə fərqlənir ki, bu da nəticədə alınan şəkillərin keyfiyyətini əhəmiyyətli dərəcədə yaxşılaşdırmağa imkan verir.
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
  • Sadələşdirilmiş SD2.0 baza versiyası hazırlanmışdır, klassik səs-küyün proqnozlaşdırılması modelindən istifadə edərək 256×256 təsvirlər üzərində öyrədilmiş və 512×512 təsvir ölçüsündə təsvirin yaradılmasını dəstəkləmişdir.
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
  • Supersampling texnologiyasından istifadə imkanı (Super Resolution) keyfiyyəti azaltmadan orijinal təsvirin ayırdetmə qabiliyyətini artırmaq, məkan miqyası və detalların yenidən qurulması alqoritmlərindən istifadə etməklə təmin edilmişdir. Təqdim olunan təsvirin işlənməsi modeli (SD20-upscaler) 2048×2048 təsvir ölçüsündə şəkillər yarada bilən XNUMX dəfə böyüdülməni dəstəkləyir.
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
  • SD2.0-depth2img modeli təklif olunur ki, bu da obyektlərin dərinliyini və məkanda yerləşməsini nəzərə alır. MiDaS sistemi monokulyar dərinliyin qiymətləndirilməsi üçün istifadə olunur. Model orijinaldan köklü şəkildə fərqlənə bilən, lakin ümumi kompozisiya və dərinliyi saxlaya bilən başqa bir təsvirdən şablon kimi istifadə edərək yeni şəkilləri sintez etməyə imkan verir. Məsələn, eyni pozada başqa bir personaj yaratmaq üçün fotoşəkildəki bir insanın pozasından istifadə edə bilərsiniz.
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
  • Şəkillərin dəyişdirilməsi modeli yeniləndi - SD 2.0-inpainting, mətn göstərişlərindən istifadə edərək şəklin hissələrini dəyişdirməyə və dəyişməyə imkan verir.
    Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi
  • Modellər bir GPU ilə adi sistemlərdə istifadə üçün optimallaşdırılmışdır.

Stabil Diffuziya 2.0 Şəkil Sintez Sistemi Təqdim edildi


Mənbə: opennet.ru

Добавить комментарий