Presentación do sistema de síntese de imaxes Stable Diffusion 2.0

Stability AI publicou a segunda edición do sistema de aprendizaxe automática Stable Diffusion, que é capaz de sintetizar e modificar imaxes baseándose nun patrón suxerido ou na descrición do texto en linguaxe natural. O código de ferramentas para o adestramento de redes neuronais e a xeración de imaxes está escrito en Python usando o marco PyTorch e publicado baixo a licenza MIT. Os modelos xa adestrados están abertos baixo a licenza permisiva Creative ML OpenRAIL-M, que permite o seu uso comercial. Ademais, hai dispoñible un xerador de imaxes de demostración en liña.

Melloras clave na nova edición de Stable Diffusion:

  • Creouse un novo modelo para a síntese de imaxes baseado na descrición do texto, SD2.0-v, que admite a xeración de imaxes cunha resolución de 768×768. O novo modelo adestrouse utilizando a colección LAION-5B de 5.85 millóns de imaxes con descricións de texto. O modelo usa o mesmo conxunto de parámetros que o modelo Stable Diffusion 1.5, pero difire pola transición ao uso dun codificador OpenCLIP-ViT/H fundamentalmente diferente, o que permitiu mellorar significativamente a calidade das imaxes resultantes.
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
  • Preparouse unha versión simplificada da base SD2.0, adestrada en imaxes de 256×256 utilizando o modelo clásico de predición de ruído e que admite a xeración de imaxes cunha resolución de 512×512.
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
  • Ofrécese a posibilidade de utilizar a tecnoloxía de supermostraxe (Super Resolution) para aumentar a resolución da imaxe orixinal sen reducir a calidade, utilizando algoritmos de escalado espacial e reconstrución de detalles. O modelo de procesamento de imaxes proporcionado (SD20-upscaler) admite a escala 2048x, que pode xerar imaxes cunha resolución de 2048 × XNUMX.
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
  • Proponse o modelo SD2.0-depth2img, que ten en conta a profundidade e a disposición espacial dos obxectos. O sistema MiDaS úsase para a estimación da profundidade monocular. O modelo permítelle sintetizar novas imaxes usando outra imaxe como modelo, que pode ser radicalmente diferente da orixinal, pero conservando a composición e profundidade xerais. Por exemplo, podes usar a pose dunha persoa nunha foto para formar outro personaxe na mesma pose.
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
  • Actualizouse o modelo para modificar imaxes: SD 2.0-inpainting, que che permite substituír e cambiar partes dunha imaxe mediante indicacións de texto.
    Presentación do sistema de síntese de imaxes Stable Diffusion 2.0
  • Os modelos optimizáronse para o seu uso en sistemas convencionais cunha única GPU.

Presentación do sistema de síntese de imaxes Stable Diffusion 2.0


Fonte: opennet.ru

Engadir un comentario