Stability AI ha publicat la segona edició del sistema d'aprenentatge automàtic Stable Diffusion, que és capaç de sintetitzar i modificar imatges a partir d'una plantilla suggerida o una descripció de text en llenguatge natural. El codi d'eines per a la formació de xarxes neuronals i la generació d'imatges està escrit en Python utilitzant el marc PyTorch i es publica sota la llicència MIT. Els models ja entrenats estan oberts sota la llicència permissiva Creative ML OpenRAIL-M, que permet l'ús comercial. A més, hi ha disponible un generador d'imatges de demostració en línia.
Millores clau en la nova edició de Stable Diffusion:
- S'ha creat un nou model de síntesi d'imatges basat en la descripció de text — SD2.0-v — que admet la generació d'imatges amb una resolució de 768×768. El nou model es va entrenar mitjançant la col·lecció LAION-5B de 5.85 milions d'imatges amb descripcions de text. El model utilitza el mateix conjunt de paràmetres que el model Stable Diffusion 1.5, però es diferencia per la transició a l'ús d'un codificador OpenCLIP-ViT/H fonamentalment diferent, que va permetre millorar significativament la qualitat de les imatges resultants.
- S'ha preparat una versió simplificada de base SD2.0, entrenada en imatges de 256×256 utilitzant el model clàssic de predicció de soroll i compatible amb la generació d'imatges amb una resolució de 512×512.
- S'ofereix la possibilitat d'utilitzar la tecnologia de supersampling (Super Resolution) per augmentar la resolució de la imatge original sense reduir-ne la qualitat, utilitzant algorismes d'escala espacial i reconstrucció de detalls. El model de processament d'imatges proporcionat (SD20-upscaler) admet l'augment de 2048x, que pot generar imatges amb una resolució de 2048 × XNUMX.
- Es proposa el model SD2.0-depth2img, que té en compte la profunditat i la disposició espacial dels objectes. El sistema MiDaS s'utilitza per a l'estimació de la profunditat monocular. El model us permet sintetitzar noves imatges utilitzant una altra imatge com a plantilla, que pot ser radicalment diferent de l'original, però conservant la composició i la profunditat generals. Per exemple, podeu utilitzar la postura d'una persona en una foto per formar un altre personatge amb la mateixa postura.
- S'ha actualitzat el model per modificar imatges: SD 2.0-inpainting, que us permet substituir i canviar parts d'una imatge mitjançant indicacions de text.
- Els models s'han optimitzat per utilitzar-los en sistemes convencionals amb una GPU.
Font: opennet.ru