Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi

Stability AI tavsiya etilgan shablon yoki tabiiy tildagi matn tavsifi asosida tasvirlarni sintez qilish va o‘zgartirishga qodir bo‘lgan Stable Diffusion mashinani o‘rganish tizimining ikkinchi nashrini chop etdi. Neyron tarmoqlarni o'rgatish va tasvirni yaratish uchun vositalar kodi PyTorch tizimidan foydalangan holda Python tilida yozilgan va MIT litsenziyasi ostida nashr etilgan. Allaqachon o'qitilgan modellar Creative ML OpenRAIL-M ruxsat beruvchi litsenziyasi ostida ochiq, bu esa tijorat maqsadlarida foydalanish imkonini beradi. Bundan tashqari, demo onlayn tasvir generatori mavjud.

Stabil diffuziyaning yangi nashridagi asosiy yaxshilanishlar:

  • Matn tavsifiga asoslangan tasvir sintezining yangi modeli — SD2.0-v — yaratildi, u 768×768 oʻlchamli tasvirlarni yaratishni qoʻllab-quvvatlaydi. Yangi model matn tavsiflari bilan 5 milliard tasvirdan iborat LAION-5.85B to'plamidan foydalangan holda o'qitildi. Model Stable Diffusion 1.5 modeli bilan bir xil parametrlar to‘plamidan foydalanadi, lekin tubdan boshqa OpenCLIP-ViT/H kodlovchidan foydalanishga o‘tish bilan farqlanadi, bu esa olingan tasvirlar sifatini sezilarli darajada yaxshilash imkonini berdi.
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
  • Shovqinni bashorat qilishning klassik modelidan foydalangan holda 2.0 × 256 o'lchamdagi tasvirlarda o'qitiladigan va 256 × 512 o'lchamli tasvirni yaratishni qo'llab-quvvatlovchi soddalashtirilgan SD512 bazasi versiyasi tayyorlandi.
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
  • Tafsilotlarni fazoviy masshtablash va rekonstruksiya qilish algoritmlaridan foydalangan holda sifatni pasaytirmasdan asl tasvirning aniqligini oshirish uchun supersampling (Super Resolution) texnologiyasidan foydalanish imkoniyati taqdim etilgan. Taqdim etilgan tasvirni qayta ishlash modeli (SD20-upscaler) 2048×2048 o‘lchamdagi tasvirlarni yaratishi mumkin bo‘lgan XNUMX marta o‘lchamini oshirishni qo‘llab-quvvatlaydi.
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
  • Ob'ektlarning chuqurligi va fazoviy joylashuvini hisobga oladigan SD2.0-depth2img modeli taklif etiladi. MiDaS tizimi monokulyar chuqurlikni baholash uchun ishlatiladi. Model boshqa tasvirni shablon sifatida ishlatib, yangi tasvirlarni sintez qilish imkonini beradi, bu asl nusxadan tubdan farq qilishi mumkin, lekin umumiy tarkib va ​​chuqurlikni saqlab qoladi. Misol uchun, xuddi shu pozada boshqa personajni shakllantirish uchun fotosuratdagi odamning pozasidan foydalanishingiz mumkin.
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
  • Tasvirlarni o'zgartirish modeli yangilandi - SD 2.0-inpainting, bu sizga matnli takliflar yordamida tasvir qismlarini almashtirish va o'zgartirish imkonini beradi.
    Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi
  • Modellar bitta GPUga ega an'anaviy tizimlarda foydalanish uchun optimallashtirilgan.

Barqaror Diffuziya 2.0 Tasvir sintezi tizimi joriy etildi


Manba: opennet.ru

a Izoh qo'shish