Sistemes d'aprenentatge automàtic per a la síntesi d'imatges i la reducció de soroll en fotografies nocturnes

Stability AI ha publicat models ja fets per al sistema d'aprenentatge automàtic Stable Diffusion, capaç de sintetitzar i modificar imatges a partir d'una descripció de text en llenguatge natural. Els models tenen una llicència permissiva Creative ML OpenRAIL-M per a ús comercial. Per entrenar el sistema, es va utilitzar un clúster de 4000 GPU NVIDIA A100 Ezra-1 i una col·lecció LAION-5B, que inclou 5.85 milions d'imatges amb descripcions de text. Anteriorment, el codi d'eines per entrenar una xarxa neuronal i generar imatges era de codi obert sota la llicència del MIT.

La disponibilitat d'un model preparat i uns requisits de sistema força modestos que permeten iniciar experiments en un ordinador amb GPU estàndard han donat lloc a l'aparició d'una sèrie de projectes relacionats:

  • inversió textual (codi): un complement que permet sintetitzar imatges amb un caràcter, objecte o estil determinats. A l'Stable Diffusion original, els objectes de les imatges sintetitzades són aleatoris i incontrolables. El complement proposat us permet afegir els vostres propis objectes visuals, lligar-los a paraules clau i utilitzar-los en síntesi.

    Per exemple, a Stable Diffusion normal podeu demanar al sistema que generi una imatge amb un "gat dins d'un vaixell". A més, podeu aclarir les característiques del gat i del vaixell, però és imprevisible quin gat i vaixell es sintetitzaran. La inversió textual us permet entrenar el sistema amb una imatge del vostre gat o vaixell i sintetitzar la imatge amb un gat o vaixell específic. De la mateixa manera, també pot substituir elements d'imatge per determinats objectes, establir un exemple d'estil visual per a la síntesi i especificar conceptes (per exemple, de tota la varietat de metges, podeu utilitzar una selecció més precisa i d'alta qualitat). amb l'estil desitjat).

    Sistemes d'aprenentatge automàtic per a la síntesi d'imatges i la reducció de soroll en fotografies nocturnes

  • stable-diffusion-animation - creació d'imatges animades (en moviment) basades en la interpolació entre imatges generades a Stable Diffusion.
  • stable_diffusion.openvino (codi) - un port de Stable Diffusion, que utilitza només la CPU per als càlculs, que permet experimentar en sistemes sense GPU potents. Requereix un processador compatible amb la biblioteca OpenVINO. Oficialment, OpenVINO ofereix complements per a processadors Intel amb extensions AVX2, AVX-512, AVX512_BF16 i SSE, així com per a plaques Raspberry Pi 4 Model B, Apple Mac mini i NVIDIA Jetson Nano. Extraoficialment, és possible utilitzar OpenVINO en processadors AMD Ryzen.
  • sdamd és un port per a GPU AMD.
  • Una implementació inicial de síntesi de vídeo.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - interfícies gràfiques per generar imatges mitjançant Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - interfícies web per a la síntesi d'imatges mitjançant Stable Diffusion.
  • Connectors per integrar Stable Diffusion amb GIMP, Figma, Blender i Photoshop.

A més, podem destacar la publicació per part de Google del codi del sistema d'aprenentatge automàtic RawNeRF (RAW Neural Radiance Fields), que permet, a partir de dades de diverses imatges RAW, millorar la qualitat d'imatges molt sorolloses preses a la foscor i en mala il·luminació. A més d'eliminar el soroll, les eines desenvolupades pel projecte permeten augmentar el detall, eliminar l'enlluernament, sintetitzar HDR i canviar la il·luminació general de les fotografies, així com recrear la posició tridimensional dels objectes utilitzant diverses fotografies des de diferents angles, canviar el punt de vista, manipular el focus i generar imatges en moviment.

Sistemes d'aprenentatge automàtic per a la síntesi d'imatges i la reducció de soroll en fotografies nocturnes
Sistemes d'aprenentatge automàtic per a la síntesi d'imatges i la reducció de soroll en fotografies nocturnes


Font: opennet.ru

Afegeix comentari