S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0

Stability AI ha publicat la segona edició del sistema d'aprenentatge automàtic Stable Diffusion, que és capaç de sintetitzar i modificar imatges a partir d'una plantilla suggerida o una descripció de text en llenguatge natural. El codi d'eines per a la formació de xarxes neuronals i la generació d'imatges està escrit en Python utilitzant el marc PyTorch i es publica sota la llicència MIT. Els models ja entrenats estan oberts sota la llicència permissiva Creative ML OpenRAIL-M, que permet l'ús comercial. A més, hi ha disponible un generador d'imatges de demostració en línia.

Millores clau en la nova edició de Stable Diffusion:

  • S'ha creat un nou model de síntesi d'imatges basat en la descripció de text — SD2.0-v — que admet la generació d'imatges amb una resolució de 768×768. El nou model es va entrenar mitjançant la col·lecció LAION-5B de 5.85 milions d'imatges amb descripcions de text. El model utilitza el mateix conjunt de paràmetres que el model Stable Diffusion 1.5, però es diferencia per la transició a l'ús d'un codificador OpenCLIP-ViT/H fonamentalment diferent, que va permetre millorar significativament la qualitat de les imatges resultants.
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
  • S'ha preparat una versió simplificada de base SD2.0, entrenada en imatges de 256×256 utilitzant el model clàssic de predicció de soroll i compatible amb la generació d'imatges amb una resolució de 512×512.
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
  • S'ofereix la possibilitat d'utilitzar la tecnologia de supersampling (Super Resolution) per augmentar la resolució de la imatge original sense reduir-ne la qualitat, utilitzant algorismes d'escala espacial i reconstrucció de detalls. El model de processament d'imatges proporcionat (SD20-upscaler) admet l'augment de 2048x, que pot generar imatges amb una resolució de 2048 × XNUMX.
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
  • Es proposa el model SD2.0-depth2img, que té en compte la profunditat i la disposició espacial dels objectes. El sistema MiDaS s'utilitza per a l'estimació de la profunditat monocular. El model us permet sintetitzar noves imatges utilitzant una altra imatge com a plantilla, que pot ser radicalment diferent de l'original, però conservant la composició i la profunditat generals. Per exemple, podeu utilitzar la postura d'una persona en una foto per formar un altre personatge amb la mateixa postura.
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
  • S'ha actualitzat el model per modificar imatges: SD 2.0-inpainting, que us permet substituir i canviar parts d'una imatge mitjançant indicacions de text.
    S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0
  • Els models s'han optimitzat per utilitzar-los en sistemes convencionals amb una GPU.

S'introdueix el sistema de síntesi d'imatges Stable Diffusion 2.0


Font: opennet.ru

Afegeix comentari