Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0

Stability AI ha pubblicato la seconda edizione del sistema di apprendimento automatico Stable Diffusion, che è in grado di sintetizzare e modificare le immagini sulla base di un modello suggerito o di una descrizione testuale in linguaggio naturale. Il codice degli strumenti per l'addestramento della rete neurale e la generazione di immagini è scritto in Python utilizzando il framework PyTorch e pubblicato con licenza MIT. I modelli già addestrati sono aperti con la licenza permissiva Creative ML OpenRAIL-M, che consente l'uso commerciale. Inoltre, è disponibile un generatore di immagini demo online.

Principali miglioramenti nella nuova edizione di Stable Diffusion:

  • È stato creato un nuovo modello per la sintesi di immagini basato sulla descrizione del testo — SD2.0-v — che supporta la generazione di immagini con una risoluzione di 768×768. Il nuovo modello è stato addestrato utilizzando la raccolta LAION-5B di 5.85 miliardi di immagini con descrizioni testuali. Il modello utilizza lo stesso set di parametri del modello Stable Diffusion 1.5, ma differisce per il passaggio all'utilizzo di un codificatore OpenCLIP-ViT/H fondamentalmente diverso, che ha permesso di migliorare significativamente la qualità delle immagini risultanti.
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
  • È stata preparata una versione semplificata basata su SD2.0, addestrata su immagini 256×256 utilizzando il classico modello di previsione del rumore e supportando la generazione di immagini con una risoluzione di 512×512.
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
  • Viene fornita la possibilità di utilizzare la tecnologia del supersampling (Super Resolution) per aumentare la risoluzione dell'immagine originale senza ridurne la qualità, utilizzando algoritmi per il ridimensionamento spaziale e la ricostruzione dei dettagli. Il modello di elaborazione delle immagini fornito (SD20-upscaler) supporta l'upscaling 2048x, che può generare immagini con una risoluzione di 2048×XNUMX.
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
  • Viene proposto il modello SD2.0-depth2img, che tiene conto della profondità e della disposizione spaziale degli oggetti. Il sistema MiDaS viene utilizzato per la stima della profondità monoculare. Il modello consente di sintetizzare nuove immagini utilizzando un'altra immagine come modello, che può essere radicalmente diversa dall'originale, ma conserva la composizione e la profondità complessive. Ad esempio, puoi utilizzare la posa di una persona in una foto per formare un altro personaggio nella stessa posa.
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
  • Il modello per la modifica delle immagini è stato aggiornato: SD 2.0-inpainting, che consente di sostituire e modificare parti di un'immagine utilizzando i prompt di testo.
    Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0
  • I modelli sono stati ottimizzati per l'utilizzo su sistemi convenzionali con una GPU.

Introduzione del sistema di sintesi delle immagini Stable Diffusion 2.0


Fonte: opennet.ru

Aggiungi un commento