A Stability AI publicou a segunda edição do sistema de aprendizado de máquina Stable Diffusion, que é capaz de sintetizar e modificar imagens com base em um modelo sugerido ou descrição de texto em linguagem natural. O código das ferramentas para treinamento de redes neurais e geração de imagens é escrito em Python usando o framework PyTorch e publicado sob a licença do MIT. Os modelos já treinados estão abertos sob a licença permissiva Creative ML OpenRAIL-M, que permite o uso comercial. Além disso, um gerador de imagens on-line de demonstração está disponível.
Principais melhorias na nova edição do Stable Diffusion:
- Foi criado um novo modelo de síntese de imagem baseado em descrição de texto — SD2.0-v — que suporta a geração de imagens com resolução de 768×768. O novo modelo foi treinado usando a coleção LAION-5B de 5.85 bilhões de imagens com descrições de texto. O modelo usa o mesmo conjunto de parâmetros do modelo Stable Diffusion 1.5, mas difere pela transição para o uso de um codificador OpenCLIP-ViT/H fundamentalmente diferente, o que possibilitou melhorar significativamente a qualidade das imagens resultantes.
- Uma versão simplificada da base SD2.0 foi preparada, treinada em imagens 256×256 usando o modelo clássico de previsão de ruído e suportando a geração de imagens com uma resolução de 512×512.
- É fornecida a possibilidade de usar a tecnologia de supersampling (Super Resolução) para aumentar a resolução da imagem original sem reduzir a qualidade, usando algoritmos para dimensionamento espacial e reconstrução de detalhes. O modelo de processamento de imagem fornecido (SD20-upscaler) suporta upscaling de 2048x, que pode gerar imagens com uma resolução de 2048×XNUMX.
- É proposto o modelo SD2.0-depth2img, que leva em consideração a profundidade e a disposição espacial dos objetos. O sistema MiDaS é usado para estimativa de profundidade monocular. O modelo permite sintetizar novas imagens usando outra imagem como modelo, que pode ser radicalmente diferente do original, mas mantém a composição geral e a profundidade. Por exemplo, você pode usar a pose de uma pessoa em uma foto para formar outro personagem na mesma pose.
- O modelo para modificar imagens foi atualizado - SD 2.0-inpainting, que permite substituir e alterar partes de uma imagem usando prompts de texto.
- Os modelos foram otimizados para uso em sistemas convencionais com uma GPU.
Fonte: opennet.ru