Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido

A Stability AI publicou a segunda edição do sistema de aprendizado de máquina Stable Diffusion, que é capaz de sintetizar e modificar imagens com base em um modelo sugerido ou descrição de texto em linguagem natural. O código das ferramentas para treinamento de redes neurais e geração de imagens é escrito em Python usando o framework PyTorch e publicado sob a licença do MIT. Os modelos já treinados estão abertos sob a licença permissiva Creative ML OpenRAIL-M, que permite o uso comercial. Além disso, um gerador de imagens on-line de demonstração está disponível.

Principais melhorias na nova edição do Stable Diffusion:

  • Foi criado um novo modelo de síntese de imagem baseado em descrição de texto — SD2.0-v — que suporta a geração de imagens com resolução de 768×768. O novo modelo foi treinado usando a coleção LAION-5B de 5.85 bilhões de imagens com descrições de texto. O modelo usa o mesmo conjunto de parâmetros do modelo Stable Diffusion 1.5, mas difere pela transição para o uso de um codificador OpenCLIP-ViT/H fundamentalmente diferente, o que possibilitou melhorar significativamente a qualidade das imagens resultantes.
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
  • Uma versão simplificada da base SD2.0 foi preparada, treinada em imagens 256×256 usando o modelo clássico de previsão de ruído e suportando a geração de imagens com uma resolução de 512×512.
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
  • É fornecida a possibilidade de usar a tecnologia de supersampling (Super Resolução) para aumentar a resolução da imagem original sem reduzir a qualidade, usando algoritmos para dimensionamento espacial e reconstrução de detalhes. O modelo de processamento de imagem fornecido (SD20-upscaler) suporta upscaling de 2048x, que pode gerar imagens com uma resolução de 2048×XNUMX.
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
  • É proposto o modelo SD2.0-depth2img, que leva em consideração a profundidade e a disposição espacial dos objetos. O sistema MiDaS é usado para estimativa de profundidade monocular. O modelo permite sintetizar novas imagens usando outra imagem como modelo, que pode ser radicalmente diferente do original, mas mantém a composição geral e a profundidade. Por exemplo, você pode usar a pose de uma pessoa em uma foto para formar outro personagem na mesma pose.
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
  • O modelo para modificar imagens foi atualizado - SD 2.0-inpainting, que permite substituir e alterar partes de uma imagem usando prompts de texto.
    Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido
  • Os modelos foram otimizados para uso em sistemas convencionais com uma GPU.

Sistema de Síntese de Imagem Stable Diffusion 2.0 Introduzido


Fonte: opennet.ru

Adicionar um comentário