Stability AI, təklif olunan şablon və ya təbii dil mətn təsviri əsasında şəkilləri sintez etmək və dəyişdirmək qabiliyyətinə malik olan Stable Diffusion maşın öyrənmə sisteminin ikinci nəşrini nəşr etdi. Neyron şəbəkə təlimi və təsvirin yaradılması üçün alətlərin kodu PyTorch çərçivəsindən istifadə edərək Python dilində yazılmış və MIT lisenziyası altında nəşr edilmişdir. Artıq təlim keçmiş modellər kommersiya istifadəsinə icazə verən Creative ML OpenRAIL-M icazəli lisenziyası altında açıqdır. Bundan əlavə, demo onlayn şəkil generatoru mövcuddur.
Stabil diffuziyanın yeni nəşrində əsas təkmilləşdirmələr:
- Mətnin təsviri əsasında təsvirin sintezi üçün yeni model — SD2.0-v — yaradılmışdır ki, bu da 768×768 təsvir ölçüsündə şəkillərin yaradılmasını dəstəkləyir. Yeni model mətn təsvirləri olan 5 milyard təsvirdən ibarət LAION-5.85B kolleksiyasından istifadə etməklə öyrədildi. Model Stable Diffusion 1.5 modeli ilə eyni parametrlər dəstindən istifadə edir, lakin əsaslı şəkildə fərqli OpenCLIP-ViT/H kodlayıcısından istifadəyə keçidlə fərqlənir ki, bu da nəticədə alınan şəkillərin keyfiyyətini əhəmiyyətli dərəcədə yaxşılaşdırmağa imkan verir.
- Sadələşdirilmiş SD2.0 baza versiyası hazırlanmışdır, klassik səs-küyün proqnozlaşdırılması modelindən istifadə edərək 256×256 təsvirlər üzərində öyrədilmiş və 512×512 təsvir ölçüsündə təsvirin yaradılmasını dəstəkləmişdir.
- Supersampling texnologiyasından istifadə imkanı (Super Resolution) keyfiyyəti azaltmadan orijinal təsvirin ayırdetmə qabiliyyətini artırmaq, məkan miqyası və detalların yenidən qurulması alqoritmlərindən istifadə etməklə təmin edilmişdir. Təqdim olunan təsvirin işlənməsi modeli (SD20-upscaler) 2048×2048 təsvir ölçüsündə şəkillər yarada bilən XNUMX dəfə böyüdülməni dəstəkləyir.
- SD2.0-depth2img modeli təklif olunur ki, bu da obyektlərin dərinliyini və məkanda yerləşməsini nəzərə alır. MiDaS sistemi monokulyar dərinliyin qiymətləndirilməsi üçün istifadə olunur. Model orijinaldan köklü şəkildə fərqlənə bilən, lakin ümumi kompozisiya və dərinliyi saxlaya bilən başqa bir təsvirdən şablon kimi istifadə edərək yeni şəkilləri sintez etməyə imkan verir. Məsələn, eyni pozada başqa bir personaj yaratmaq üçün fotoşəkildəki bir insanın pozasından istifadə edə bilərsiniz.
- Şəkillərin dəyişdirilməsi modeli yeniləndi - SD 2.0-inpainting, mətn göstərişlərindən istifadə edərək şəklin hissələrini dəyişdirməyə və dəyişməyə imkan verir.
- Modellər bir GPU ilə adi sistemlərdə istifadə üçün optimallaşdırılmışdır.
Mənbə: opennet.ru