Sistemi di machine learning per la sintesi delle immagini e la riduzione del rumore nelle foto notturne

Stability AI ha pubblicato modelli già pronti per il sistema di machine learning Stable Diffusion, in grado di sintetizzare e modificare immagini sulla base di una descrizione testuale in linguaggio naturale. I modelli sono concessi in licenza con una licenza Creative ML OpenRAIL-M permissiva per uso commerciale. Per addestrare il sistema, sono stati utilizzati un cluster di 4000 GPU NVIDIA A100 Ezra-1 e una raccolta LAION-5B, comprendente 5.85 miliardi di immagini con descrizioni testuali. In precedenza, il codice per gli strumenti per l’addestramento di una rete neurale e la generazione di immagini era open source con licenza MIT.

La disponibilità di un modello già pronto e requisiti di sistema abbastanza modesti che consentono di avviare esperimenti su un PC con GPU standard hanno portato alla nascita di una serie di progetti correlati:

  • inversione testuale (codice) - un componente aggiuntivo che ti consente di sintetizzare immagini con un determinato carattere, oggetto o stile. Nell'originale Stable Diffusion, gli oggetti nelle immagini sintetizzate sono casuali e incontrollabili. L'add-on proposto permette di aggiungere i propri oggetti visivi, associarli a parole chiave e utilizzarli in sintesi.

    Ad esempio, nella normale Stable Diffusion puoi chiedere al sistema di generare un'immagine con un "gatto in una barca". Inoltre, è possibile chiarire le caratteristiche del gatto e della barca, ma è imprevedibile quale gatto e barca verranno sintetizzati. L'inversione testuale ti consente di addestrare il sistema su un'immagine del tuo gatto o di una barca e sintetizzare l'immagine con un gatto o una barca specifici. Allo stesso modo, può anche sostituire elementi dell'immagine con determinati oggetti, dare un esempio di stile visivo per la sintesi e specificare concetti (ad esempio, dall'intera varietà di medici, è possibile utilizzare una selezione più accurata e di alta qualità nello stile desiderato).

    Sistemi di machine learning per la sintesi delle immagini e la riduzione del rumore nelle foto notturne

  • stable-diffusion-animation - creazione di immagini animate (in movimento) basate sull'interpolazione tra immagini generate in Stable Diffusion.
  • stable_diffusion.openvino (codice) - un port di Stable Diffusion, che utilizza solo la CPU per i calcoli, che consente la sperimentazione su sistemi senza GPU potenti. Richiede un processore supportato nella libreria OpenVINO. Ufficialmente, OpenVINO fornisce plugin per processori Intel con estensioni AVX2, AVX-512, AVX512_BF16 e SSE, nonché per schede Raspberry Pi 4 Modello B, Apple Mac mini e NVIDIA Jetson Nano. Ufficiosamente, è possibile utilizzare OpenVINO su processori AMD Ryzen.
  • sdamd è un port per GPU AMD.
  • Una prima implementazione della sintesi video.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - interfacce grafiche per generare immagini utilizzando Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI: interfacce web per la sintesi di immagini utilizzando Stable Diffusion.
  • Plugin per l'integrazione di Stable Diffusion con GIMP, Figma, Blender e Photoshop.

Si segnala inoltre la pubblicazione da parte di Google del codice del sistema di machine learning RawNeRF (RAW Neural Radiance Fields), che consente, sulla base dei dati provenienti da diverse immagini RAW, di migliorare la qualità di immagini altamente rumorose scattate al buio e in condizioni di scarsa illuminazione. scarsa illuminazione. Oltre ad eliminare il rumore, gli strumenti sviluppati dal progetto consentono di aumentare i dettagli, eliminare i riflessi, sintetizzare l'HDR e modificare l'illuminazione generale nelle fotografie, nonché ricreare la posizione tridimensionale degli oggetti utilizzando diverse fotografie da diverse angolazioni, spostare il punto di vista, manipolare la messa a fuoco e generare immagini in movimento.

Sistemi di machine learning per la sintesi delle immagini e la riduzione del rumore nelle foto notturne
Sistemi di machine learning per la sintesi delle immagini e la riduzione del rumore nelle foto notturne


Fonte: opennet.ru

Aggiungi un commento