Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema

„Stability AI“ išleido antrąjį „Stable Diffusion“ mašininio mokymosi sistemos leidimą, galintį sintetinti ir modifikuoti vaizdus pagal siūlomą šabloną arba natūralios kalbos teksto aprašymą. Neuroninio tinklo mokymo ir vaizdų generavimo įrankių kodas parašytas Python naudojant PyTorch sistemą ir paskelbtas pagal MIT licenciją. Jau apmokyti modeliai yra atviri pagal Creative ML OpenRAIL-M licenciją, leidžiančią naudoti komerciniais tikslais. Be to, yra demonstracinis internetinis vaizdų generatorius.

Pagrindiniai naujojo „Stable Diffusion“ leidimo patobulinimai:

  • Sukurtas naujas vaizdų sintezės pagal tekstinį aprašymą modelis – SD2.0-v, kuris palaiko 768×768 raiškos vaizdų generavimą. Naujasis modelis buvo apmokytas naudojant LAION-5B kolekciją, kurią sudaro 5.85 mlrd. vaizdų su tekstiniais aprašymais. Modelis naudoja tą patį parametrų rinkinį kaip ir Stable Diffusion 1.5 modelyje, tačiau skiriasi perėjimu prie iš esmės kitokio OpenCLIP-ViT/H kodavimo įrenginio, kuris leido žymiai pagerinti gaunamų vaizdų kokybę.
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
  • Parengta supaprastinta SD2.0 bazės versija, apmokyta 256 × 256 vaizdų, naudojant klasikinį triukšmo prognozavimo modelį ir palaikantį vaizdų generavimą su 512 × 512 raiška.
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
  • Numatyta galimybė panaudoti supersampling (Super Resolution) technologiją, siekiant padidinti originalaus vaizdo raišką nemažinant kokybės, naudojant erdvinio mastelio ir detalių atkūrimo algoritmus. Pateiktas vaizdo apdorojimo modelis (SD20-upscaler) palaiko 2048x padidinimą, kuris gali generuoti vaizdus, ​​kurių skiriamoji geba yra 2048 × XNUMX.
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
  • Siūlomas SD2.0-depth2img modelis, kuriame atsižvelgiama į objektų gylį ir erdvinį išsidėstymą. MiDaS sistema naudojama monokuliariniam gyliui įvertinti. Modelis leidžia sintezuoti naujus vaizdus, ​​naudojant kitą vaizdą kaip šabloną, kuris gali kardinaliai skirtis nuo originalo, tačiau išlaiko bendrą kompoziciją ir gylį. Pavyzdžiui, galite naudoti žmogaus pozą nuotraukoje, kad suformuotumėte kitą personažą toje pačioje pozoje.
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
  • Atnaujintas vaizdų modifikavimo modelis – SD 2.0 inpainting, leidžiantis pakeisti ir keisti vaizdo dalis naudojant tekstinius raginimus.
    Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema
  • Modeliai buvo optimizuoti naudoti įprastose sistemose su vienu GPU.

Pristatyta stabilios difuzijos 2.0 vaizdo sintezės sistema


Šaltinis: opennet.ru

Добавить комментарий