Stable Diffusion 2.0 Bildsynthesesystem eingeführt

Stability AI hat die zweite Ausgabe des maschinellen Lernsystems Stable Diffusion veröffentlicht, das in der Lage ist, Bilder basierend auf einer vorgeschlagenen Vorlage oder einer Textbeschreibung in natürlicher Sprache zu synthetisieren und zu ändern. Der Code der Tools für das Training neuronaler Netze und die Bilderzeugung ist in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter der MIT-Lizenz veröffentlicht. Bereits trainierte Modelle stehen unter der freizügigen Creative ML OpenRAIL-M-Lizenz zur Verfügung, die eine kommerzielle Nutzung ermöglicht. Darüber hinaus ist ein Demo-Online-Bildgenerator verfügbar.

Wichtige Verbesserungen in der neuen Ausgabe von Stable Diffusion:

  • Es wurde ein neues Modell für die Bildsynthese basierend auf Textbeschreibungen – SD2.0-v – erstellt, das die Generierung von Bildern mit einer Auflösung von 768×768 unterstützt. Das neue Modell wurde mithilfe der LAION-5B-Sammlung von 5.85 Milliarden Bildern mit Textbeschreibungen trainiert. Das Modell verwendet den gleichen Parametersatz wie das Stable Diffusion 1.5-Modell, unterscheidet sich jedoch durch den Übergang zur Verwendung eines grundlegend anderen OpenCLIP-ViT/H-Encoders, wodurch die Qualität der resultierenden Bilder deutlich verbessert werden konnte.
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
  • Es wurde eine vereinfachte SD2.0-Basisversion vorbereitet, die auf 256×256-Bildern unter Verwendung des klassischen Rauschvorhersagemodells trainiert wurde und die Bilderzeugung mit einer Auflösung von 512×512 unterstützt.
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
  • Es besteht die Möglichkeit, die Supersampling-Technologie (Super Resolution) zu nutzen, um die Auflösung des Originalbildes zu erhöhen, ohne die Qualität zu beeinträchtigen, indem Algorithmen zur räumlichen Skalierung und Rekonstruktion von Details verwendet werden. Das bereitgestellte Bildverarbeitungsmodell (SD20-Upscaler) unterstützt eine 2048-fache Hochskalierung, wodurch Bilder mit einer Auflösung von 2048×XNUMX erzeugt werden können.
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
  • Es wird das SD2.0-Depth2img-Modell vorgeschlagen, das die Tiefe und räumliche Anordnung von Objekten berücksichtigt. Das MiDaS-System wird zur monokularen Tiefenschätzung verwendet. Mit dem Modell können Sie neue Bilder synthetisieren, indem Sie ein anderes Bild als Vorlage verwenden, das sich radikal vom Original unterscheiden kann, aber die Gesamtkomposition und -tiefe beibehält. Sie können beispielsweise die Pose einer Person auf einem Foto verwenden, um eine andere Figur in derselben Pose zu formen.
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
  • Das Modell zum Ändern von Bildern wurde aktualisiert – SD 2.0-inpainting, das es Ihnen ermöglicht, Teile eines Bildes mithilfe von Texteingabeaufforderungen zu ersetzen und zu ändern.
    Stable Diffusion 2.0 Bildsynthesesystem eingeführt
  • Die Modelle sind für den Einsatz auf herkömmlichen Systemen mit einer GPU optimiert.

Stable Diffusion 2.0 Bildsynthesesystem eingeführt


Source: opennet.ru

Kommentar hinzufügen