Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus

Stability AI a publicat cea de-a doua ediție a sistemului de învățare automată Stable Diffusion, care este capabil să sintetizeze și să modifice imagini pe baza unui model sugerat sau a unei descriere a textului în limbaj natural. Codul de instrumente pentru formarea rețelelor neuronale și generarea de imagini este scris în Python folosind cadrul PyTorch și publicat sub licența MIT. Modelele deja instruite sunt deschise sub licența permisivă Creative ML OpenRAIL-M, care permite utilizarea comercială. În plus, este disponibil un generator de imagini demo online.

Îmbunătățiri cheie în noua ediție a Stable Diffusion:

  • A fost creat un nou model de sinteză de imagini bazat pe descrierea textului – SD2.0-v – care acceptă generarea de imagini cu o rezoluție de 768×768. Noul model a fost antrenat folosind colecția LAION-5B de 5.85 miliarde de imagini cu descrieri text. Modelul folosește același set de parametri ca modelul Stable Diffusion 1.5, dar diferă prin trecerea la utilizarea unui encoder OpenCLIP-ViT/H fundamental diferit, ceea ce a făcut posibilă îmbunătățirea semnificativă a calității imaginilor rezultate.
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
  • A fost pregătită o versiune simplificată a bazei SD2.0, instruită pe imagini de 256×256 folosind modelul clasic de predicție a zgomotului și susținând generarea de imagini cu o rezoluție de 512×512.
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
  • Posibilitatea de utilizare a tehnologiei de supraeșantionare (Super Resolution) este prevăzută pentru a crește rezoluția imaginii originale fără a reduce calitatea, folosind algoritmi de scalare spațială și reconstrucție a detaliilor. Modelul de procesare a imaginii furnizat (SD20-upscaler) acceptă upscaling de 2048x, care poate genera imagini cu o rezoluție de 2048×XNUMX.
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
  • Este propus modelul SD2.0-depth2img, care ia în considerare adâncimea și aranjarea spațială a obiectelor. Sistemul MiDaS este utilizat pentru estimarea adâncimii monoculare. Modelul vă permite să sintetizați imagini noi folosind o altă imagine ca șablon, care poate fi radical diferită de original, dar păstrând compoziția generală și profunzimea. De exemplu, puteți folosi poziția unei persoane dintr-o fotografie pentru a forma un alt personaj în aceeași ipostază.
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
  • Modelul de modificare a imaginilor a fost actualizat - SD 2.0-inpainting, care vă permite să înlocuiți și să schimbați părți ale unei imagini folosind solicitări de text.
    Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus
  • Modelele au fost optimizate pentru utilizare pe sisteme convenționale cu un singur GPU.

Stable Diffusion 2.0 Sistem de sinteză a imaginilor introdus


Sursa: opennet.ru

Adauga un comentariu