Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı

Stability AI, görüntüleri önerilen bir şablona veya doğal dildeki metin açıklamasına göre sentezleyebilen ve değiştirebilen Stable Diffusion makine öğrenimi sisteminin ikinci sürümünü yayınladı. Sinir ağı eğitimi ve görüntü üretimi için araçların kodu, PyTorch çerçevesi kullanılarak Python'da yazılmıştır ve MIT lisansı altında yayınlanmıştır. Halihazırda eğitilmiş modeller, ticari kullanıma izin veren Creative ML OpenRAIL-M müsamahalı lisansı altında açıktır. Ek olarak, bir demo çevrimiçi görüntü oluşturucu da mevcuttur.

Stable Difusion'ın yeni sürümündeki önemli iyileştirmeler:

  • 2.0×768 çözünürlüklü görüntülerin oluşturulmasını destekleyen, metin açıklamasına dayalı yeni bir görüntü sentezi modeli — SD768-v — oluşturuldu. Yeni model, metin açıklamalarıyla birlikte 5 milyar görüntüden oluşan LAION-5.85B koleksiyonu kullanılarak eğitildi. Model, Stable Diffusion 1.5 modeliyle aynı parametre setini kullanır, ancak temelde farklı bir OpenCLIP-ViT/H kodlayıcı kullanmaya geçişle farklılık gösterir, bu da elde edilen görüntülerin kalitesini önemli ölçüde iyileştirmeyi mümkün kılar.
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
  • Klasik gürültü tahmin modeli kullanılarak 2.0×256 görüntüler üzerinde eğitilmiş ve 256×512 çözünürlüklü görüntü oluşturmayı destekleyen basitleştirilmiş bir SD512 tabanlı sürüm hazırlanmıştır.
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
  • Kaliteyi düşürmeden orijinal görüntünün çözünürlüğünü artırmak için süper örnekleme teknolojisini (Süper Çözünürlük) kullanma olasılığı, mekansal ölçeklendirme ve ayrıntıların yeniden oluşturulması için algoritmalar kullanılarak sağlanır. Sağlanan görüntü işleme modeli (SD20-upscaler), 2048×2048 çözünürlüğe sahip görüntüler oluşturabilen XNUMXx yükseltmeyi destekler.
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
  • Nesnelerin derinliğini ve uzamsal düzenlemesini hesaba katan SD2.0-Derinlik2img modeli önerilmiştir. MiDaS sistemi, monoküler derinlik tahmini için kullanılır. Model, orijinalinden kökten farklı olabilen ancak genel kompozisyonu ve derinliği koruyan başka bir görüntüyü şablon olarak kullanarak yeni görüntüleri sentezlemenize olanak tanır. Örneğin bir fotoğraftaki kişinin pozunu aynı pozda başka bir karakter oluşturmak için kullanabilirsiniz.
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
  • Görüntüleri değiştirme modeli güncellendi - metin istemlerini kullanarak bir görüntünün parçalarını değiştirmenize ve değiştirmenize olanak tanıyan SD 2.0-inpainting.
    Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı
  • Modeller, tek GPU'lu geleneksel sistemlerde kullanım için optimize edilmiştir.

Stable Difüzyon 2.0 Görüntü Sentez Sistemi Tanıtıldı


Kaynak: opennet.ru

Yorum ekle