Sistemas de aprendizado de máquina para síntese de imagens e redução de ruído em fotos noturnas

Stability AI publicou modelos prontos para o sistema de aprendizado de máquina Stable Diffusion, capaz de sintetizar e modificar imagens com base em uma descrição de texto em linguagem natural. Os modelos são licenciados sob uma licença permissiva Creative ML OpenRAIL-M para uso comercial. Para treinar o sistema, foram utilizados um cluster de 4000 GPUs NVIDIA A100 Ezra-1 e uma coleção LAION-5B, incluindo 5.85 bilhões de imagens com descrições de texto. Anteriormente, o código das ferramentas para treinar uma rede neural e gerar imagens era de código aberto sob a licença do MIT.

A disponibilidade de um modelo pronto e requisitos de sistema bastante modestos que permitem iniciar experimentos em um PC com GPUs padrão levaram ao surgimento de uma série de projetos relacionados:

  • inversão textual (código) - um complemento que permite sintetizar imagens com um determinado personagem, objeto ou estilo. Na Difusão Estável original, os objetos nas imagens sintetizadas são aleatórios e incontroláveis. O add-on proposto permite adicionar seus próprios objetos visuais, vinculá-los a palavras-chave e usá-los em síntese.

    Por exemplo, na Difusão Estável regular você pode pedir ao sistema para gerar uma imagem com um “gato em um barco”. Além disso, você pode esclarecer as características do gato e do barco, mas é imprevisível qual gato e barco serão sintetizados. A inversão textual permite treinar o sistema em uma imagem do seu gato ou barco e sintetizar a imagem com um gato ou barco específico. Da mesma forma, também pode substituir elementos de imagem por determinados objetos, dar um exemplo de estilo visual para síntese e especificar conceitos (por exemplo, de toda a variedade de médicos, você pode usar uma seleção mais precisa e de alta qualidade no estilo desejado).

    Sistemas de aprendizado de máquina para síntese de imagens e redução de ruído em fotos noturnas

  • stable-diffusion-animation - criação de imagens animadas (em movimento) baseadas na interpolação entre imagens geradas em Stable Diffusion.
  • stable_diffusion.openvino (código) - uma porta do Stable Diffusion, que utiliza apenas a CPU para cálculos, o que permite experimentação em sistemas sem GPUs potentes. Requer um processador compatível com a biblioteca OpenVINO. Oficialmente, o OpenVINO fornece plug-ins para processadores Intel com extensões AVX2, AVX-512, AVX512_BF16 e SSE, bem como para placas Raspberry Pi 4 Modelo B, Apple Mac mini e NVIDIA Jetson Nano. Extraoficialmente, é possível usar OpenVINO em processadores AMD Ryzen.
  • sdamd é uma porta para GPUs AMD.
  • Uma implementação inicial de síntese de vídeo.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, difuse-the-rest - interfaces gráficas para geração de imagens usando Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - interfaces web para síntese de imagens usando Stable Diffusion.
  • Plugins para integração de Stable Diffusion com GIMP, Figma, Blender e Photoshop.

Adicionalmente, podemos destacar a publicação pelo Google do código do sistema de aprendizado de máquina RawNeRF (RAW Neural Radiance Fields), que permite, com base em dados de diversas imagens RAW, melhorar a qualidade de imagens com alto ruído tiradas no escuro e em má iluminação. Além de eliminar ruídos, as ferramentas desenvolvidas pelo projeto permitem aumentar detalhes, eliminar brilhos, sintetizar HDR e alterar a iluminação geral nas fotografias, bem como recriar a posição tridimensional dos objetos a partir de diversas fotografias de diferentes ângulos, mudar o ponto de vista, manipular o foco e gerar imagens em movimento.

Sistemas de aprendizado de máquina para síntese de imagens e redução de ruído em fotos noturnas
Sistemas de aprendizado de máquina para síntese de imagens e redução de ruído em fotos noturnas


Fonte: opennet.ru

Adicionar um comentário