Stable Diffusion 2.0 Image Synthesis System esitelty

Stability AI on julkaissut toisen painoksen Stable Diffusion -koneoppimisjärjestelmästä, joka pystyy syntetisoimaan ja muokkaamaan kuvia ehdotetun kaavan tai luonnollisen kielen tekstikuvauksen perusteella. Neuroverkkokoulutuksen ja kuvan luomisen työkalujen koodi on kirjoitettu Pythonissa PyTorch-kehyksen avulla ja julkaistu MIT-lisenssillä. Jo koulutetut mallit ovat avoinna Creative ML OpenRAIL-M -lisenssillä, joka sallii kaupallisen käytön. Lisäksi saatavilla on demo-online-kuvageneraattori.

Tärkeimmät parannukset uudessa Stable Diffusion -versiossa:

  • Tekstikuvaukseen perustuvalle kuvasynteesille on luotu uusi malli — SD2.0-v —, joka tukee kuvien generointia resoluutiolla 768×768. Uutta mallia koulutettiin LAION-5B-kokoelman avulla, joka sisältää 5.85 miljardia tekstikuvauksellista kuvaa. Malli käyttää samaa parametrijoukkoa kuin Stable Diffusion 1.5 -malli, mutta eroaa siitä, että se on siirtynyt käyttämään olennaisesti erilaista OpenCLIP-ViT/H-enkooderia, mikä mahdollisti syntyvien kuvien laadun parantamisen merkittävästi.
    Stable Diffusion 2.0 Image Synthesis System esitelty
  • SD2.0-kannasta on valmistettu yksinkertaistettu versio, joka on opetettu 256×256 kuville käyttäen klassista kohinan ennustemallia ja tukemaan kuvan generointia 512×512 resoluutiolla.
    Stable Diffusion 2.0 Image Synthesis System esitelty
  • Mahdollisuus käyttää supersampling-tekniikkaa (Super Resolution) tarjotaan lisäämään alkuperäisen kuvan resoluutiota laatua heikentämättä käyttämällä algoritmeja spatiaaliseen skaalaukseen ja yksityiskohtien rekonstruointiin. Mukana toimitettu kuvankäsittelymalli (SD20-upscaler) tukee 2048x-skaalaustoimintoa, joka voi tuottaa kuvia, joiden resoluutio on 2048×XNUMX.
    Stable Diffusion 2.0 Image Synthesis System esitelty
  • Ehdotetaan mallia SD2.0-depth2img, joka ottaa huomioon kohteiden syvyyden ja tilajärjestelyn. MiDaS-järjestelmää käytetään monokulaarisen syvyyden arviointiin. Mallin avulla voit syntetisoida uusia kuvia käyttämällä mallina toista kuvaa, joka voi olla radikaalisti erilainen kuin alkuperäinen, mutta säilyttää kokonaiskoostumuksen ja syvyyden. Voit esimerkiksi käyttää valokuvassa olevan henkilön asentoa muodostaaksesi toisen hahmon samassa asennossa.
    Stable Diffusion 2.0 Image Synthesis System esitelty
    Stable Diffusion 2.0 Image Synthesis System esitelty
    Stable Diffusion 2.0 Image Synthesis System esitelty
  • Kuvien muokkaamisen malli on päivitetty - SD 2.0-inpainting, jonka avulla voit vaihtaa ja muuttaa kuvan osia tekstikehotteiden avulla.
    Stable Diffusion 2.0 Image Synthesis System esitelty
  • Mallit on optimoitu käytettäviksi perinteisissä järjestelmissä, joissa on yksi GPU.

Stable Diffusion 2.0 Image Synthesis System esitelty


Lähde: opennet.ru

Lisää kommentti