Sistemas de aprendizaxe automática para a síntese de imaxes e a redución de ruído nas fotos nocturnas

Stability AI publicou modelos preparados para o sistema de aprendizaxe automática Stable Diffusion, capaz de sintetizar e modificar imaxes baseadas nunha descrición de texto en linguaxe natural. Os modelos teñen unha licenza permisiva Creative ML OpenRAIL-M para uso comercial. Para adestrar o sistema, utilizouse un clúster de 4000 GPU NVIDIA A100 Ezra-1 e unha colección LAION-5B, que inclúe 5.85 millóns de imaxes con descricións de texto. Anteriormente, o código de ferramentas para adestrar unha rede neuronal e xerar imaxes era de código aberto baixo a licenza MIT.

A dispoñibilidade dun modelo prefabricado e os requisitos do sistema bastante modestos que permiten iniciar experimentos nun PC con GPU estándar provocaron a aparición dunha serie de proxectos relacionados:

  • textual-inversion (código): un complemento que che permite sintetizar imaxes cun determinado carácter, obxecto ou estilo. Na Stable Diffusion orixinal, os obxectos das imaxes sintetizadas son aleatorios e incontrolables. O complemento proposto permítelle engadir os seus propios obxectos visuais, vinculalos a palabras clave e usalos en síntese.

    Por exemplo, en Stable Diffusion normal podes pedirlle ao sistema que xere unha imaxe cun "gato nun barco". Ademais, pode aclarar as características do gato e do barco, pero é imprevisible que gato e barco serán sintetizados. A inversión textual permítelle adestrar o sistema nunha imaxe do seu gato ou barco e sintetizar a imaxe cun gato ou barco específico. De xeito similar, tamén pode substituír elementos da imaxe con certos obxectos, establecer un exemplo de estilo visual para a síntese e especificar conceptos (por exemplo, de toda a variedade de médicos, pode usar unha selección máis precisa e de alta calidade). no estilo desexado).

    Sistemas de aprendizaxe automática para a síntese de imaxes e a redución de ruído nas fotos nocturnas

  • stable-diffusion-animation - creación de imaxes animadas (en movemento) baseadas na interpolación entre imaxes xeradas en Stable Diffusion.
  • stable_diffusion.openvino (código) - un porto de Stable Diffusion, que usa só a CPU para os cálculos, o que permite experimentar en sistemas sen GPU potentes. Require un procesador compatible coa biblioteca OpenVINO. Oficialmente, OpenVINO ofrece complementos para procesadores Intel con extensións AVX2, AVX-512, AVX512_BF16 e SSE, así como para placas Raspberry Pi 4 Modelo B, Apple Mac mini e NVIDIA Jetson Nano. Extraoficialmente, é posible usar OpenVINO nos procesadores AMD Ryzen.
  • sdamd é un porto para GPU AMD.
  • Unha implementación inicial da síntese de vídeo.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - interfaces gráficas para xerar imaxes usando Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - interfaces web para a síntese de imaxes usando Stable Diffusion.
  • Complementos para integrar Stable Diffusion con GIMP, Figma, Blender e Photoshop.

Ademais, podemos sinalar a publicación por parte de Google do código do sistema de aprendizaxe automática RawNeRF (RAW Neural Radiance Fields), que permite, a partir de datos de varias imaxes RAW, mellorar a calidade das imaxes moi ruidosas tomadas na escuridade e na mala iluminación. Ademais de eliminar o ruído, as ferramentas desenvolvidas polo proxecto permiten aumentar o detalle, eliminar o brillo, sintetizar HDR e cambiar a iluminación global nas fotografías, así como recrear a posición tridimensional dos obxectos utilizando varias fotografías desde diferentes ángulos, cambiar o punto de vista, manipular o foco e xerar imaxes en movemento.

Sistemas de aprendizaxe automática para a síntese de imaxes e a redución de ruído nas fotos nocturnas
Sistemas de aprendizaxe automática para a síntese de imaxes e a redución de ruído nas fotos nocturnas


Fonte: opennet.ru

Engadir un comentario