Stabil diffúziós 2.0 képszintézis rendszer bevezetése

A Stability AI közzétette a Stable Diffusion gépi tanulási rendszer második kiadását, amely képes szintetizálni és módosítani a képeket egy javasolt minta vagy természetes nyelvű szövegleírás alapján. A neurális hálózatok betanítására és képgenerálására szolgáló eszközök kódja Pythonban van megírva a PyTorch keretrendszer segítségével, és az MIT licenc alatt van közzétéve. A már betanított modellek nyitva állnak a Creative ML OpenRAIL-M engedéllyel, amely lehetővé teszi a kereskedelmi felhasználást. Ezenkívül elérhető egy demo online képgenerátor.

Főbb fejlesztések a Stable Diffusion új kiadásában:

  • Elkészült a szöveges leíráson alapuló képszintézis új modellje – SD2.0-v –, amely támogatja a 768×768-as felbontású képek generálását. Az új modellt az 5 milliárd képből álló, szöveges leírásokat tartalmazó LAION-5.85B gyűjtemény segítségével képezték ki. A modell ugyanazt a paraméterkészletet használja, mint a Stable Diffusion 1.5 modell, de különbözik egy alapvetően eltérő OpenCLIP-ViT/H kódoló használatára való átállástól, ami lehetővé tette a kapott képek minőségének jelentős javítását.
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
  • Elkészült egy egyszerűsített SD2.0 alapú változat, amely 256×256 képre betanította a klasszikus zaj-előrejelzési modellt, és támogatja a képgenerálást 512×512-es felbontással.
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
  • Lehetőség van a szupermintavételezés (Super Resolution) technológia alkalmazására az eredeti kép felbontásának növelésére a minőség csökkenése nélkül, térbeli léptékezésre és a részletek rekonstrukciójára szolgáló algoritmusok segítségével. A mellékelt képfeldolgozó modell (SD20-upscaler) támogatja a 2048x-es felskálázást, amely 2048×XNUMX-as felbontású képeket képes generálni.
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
  • Az SD2.0-depth2img modell javasolt, amely figyelembe veszi az objektumok mélységét és térbeli elrendezését. A MiDaS rendszert monokuláris mélységbecslésre használják. A modell lehetővé teszi új képek szintetizálását egy másik kép sablonként történő felhasználásával, amely gyökeresen eltérhet az eredetitől, de megtartja az általános kompozíciót és mélységet. Használhatja például egy személy pózát a fényképen, hogy egy másik karaktert alakítson ki ugyanabban a pózban.
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
  • Frissült a képek módosításának modellje - SD 2.0-inpainting, amely lehetővé teszi a kép egyes részei cseréjét és módosítását szöveges promptok segítségével.
    Stabil diffúziós 2.0 képszintézis rendszer bevezetése
  • A modelleket egy GPU-val rendelkező hagyományos rendszereken való használatra optimalizálták.

Stabil diffúziós 2.0 képszintézis rendszer bevezetése


Forrás: opennet.ru

Hozzászólás