Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0

Stability AI ka publikuar edicionin e dytë të sistemit të mësimit të makinerisë Stable Diffusion, i aftë për të sintetizuar dhe modifikuar imazhe bazuar në një shabllon të propozuar ose përshkrim teksti në gjuhën natyrore. Kodi për trajnimin e rrjetit nervor dhe mjetet e gjenerimit të imazheve është shkruar në Python duke përdorur kornizën PyTorch dhe publikohet nën licencën MIT. Modelet e trajnuara tashmë janë të hapura nën licencën lejuese Creative ML OpenRAIL-M, duke lejuar përdorimin komercial. Për më tepër, është i disponueshëm një gjenerator imazhi demo në internet.

Përmirësimet kryesore në edicionin e ri të Stable Diffusion:

  • Është krijuar një model i ri për sintezën e imazhit bazuar në përshkrimin e tekstit - SD2.0-v, i cili mbështet gjenerimin e imazheve me një rezolucion prej 768x768. Modeli i ri është trajnuar duke përdorur koleksionin LAION-5B, i cili përfshin 5.85 miliardë imazhe me përshkrime teksti. Modeli përdor të njëjtin grup parametrash si modeli Stable Diffusion 1.5, por ndryshon në kalimin në përdorimin e një koduesi thelbësisht të ndryshëm OpenCLIP-ViT/H, i cili ka përmirësuar ndjeshëm cilësinë e imazheve që rezultojnë.
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
  • Është përgatitur një version i thjeshtuar i bazës SD2.0, i trajnuar mbi imazhe 256×256 duke përdorur një model klasik të parashikimit të zhurmës dhe duke mbështetur gjenerimin e imazheve me rezolucion 512×512.
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
  • Është e mundur të përdoret teknologjia e supersampling (Super Resolution) për të rritur rezolucionin e imazhit origjinal pa ulur cilësinë, duke përdorur shkallëzimin hapësinor dhe algoritmet e rindërtimit të detajeve. Modeli i ofruar i përpunimit të imazhit (SD20-upscaler) mbështet zmadhimin katër herë, i cili lejon gjenerimin e imazheve me rezolucion 2048x2048.
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
  • Propozohet modeli SD2.0-depth2img, duke marrë parasysh thellësinë dhe rregullimin hapësinor të objekteve. Për vlerësimin e thellësisë monokulare, përdoret sistemi MiDaS. Modeli ju lejon të sintetizoni imazhe të reja duke përdorur një imazh tjetër si shabllon, i cili mund të jetë rrënjësisht i ndryshëm nga origjinali, por të ruajë përbërjen dhe thellësinë e përgjithshme. Për shembull, mund të përdorni pozën e një personi në një fotografi për të formuar një personazh tjetër në të njëjtën pozë.
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
  • Modeli për modifikimin e imazheve është përditësuar - SD 2.0-inpainting, i cili ju lejon të zëvendësoni dhe ndryshoni pjesë të imazhit duke përdorur kërkesat e tekstit.
    Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0
  • Modelet janë optimizuar për përdorim në sistemet konvencionale me një GPU të vetme.

Prezantohet Sistemi i Sintezës së Imazhit të Difuzionit të Qëndrueshëm 2.0


Burimi: opennet.ru

Shto një koment