Maskinlæringssystemer for bildesyntese og støyreduksjon i nattbilder

Stability AI har publisert ferdige modeller for maskinlæringssystemet Stable Diffusion, som er i stand til å syntetisere og modifisere bilder basert på en tekstbeskrivelse på naturlig språk. Modeller er lisensiert under en tillatende Creative ML OpenRAIL-M-lisens for kommersiell bruk. For å trene systemet ble det brukt en klynge med 4000 NVIDIA A100 Ezra-1 GPUer og en LAION-5B-samling, inkludert 5.85 milliarder bilder med tekstbeskrivelser. Tidligere var koden for verktøy for å trene et nevralt nettverk og generere bilder åpen kildekode under MIT-lisensen.

Tilgjengeligheten av en ferdig modell og ganske beskjedne systemkrav som lar en starte eksperimenter på en PC med standard GPUer har ført til fremveksten av en rekke relaterte prosjekter:

  • textual-inversion (kode) - et tillegg som lar deg syntetisere bilder med et gitt tegn, objekt eller stil. I den originale Stable Diffusion er objektene i de syntetiserte bildene tilfeldige og ukontrollerbare. Det foreslåtte tillegget lar deg legge til dine egne visuelle objekter, binde dem til nøkkelord og bruke dem i syntese.

    For eksempel, i vanlig Stall Diffusion kan du be systemet om å generere et bilde med en "katt i en båt". I tillegg kan du klargjøre egenskapene til katten og båten, men det er uforutsigbart hvilken katt og båt som skal syntetiseres. Tekstinversjon lar deg trene systemet på et bilde av katten eller båten din og syntetisere bildet med en bestemt katt eller båt. På en lignende måte kan den også erstatte bildeelementer med visse objekter, sette et eksempel på en visuell stil for syntese og spesifisere konsepter (for eksempel fra hele utvalget av leger kan du bruke et mer nøyaktig og høykvalitets utvalg i ønsket stil).

    Maskinlæringssystemer for bildesyntese og støyreduksjon i nattbilder

  • stable-diffusion-animation - opprettelse av animerte (bevegelige) bilder basert på interpolasjon mellom bilder generert i Stable Diffusion.
  • stable_diffusion.openvino (kode) - en port for Stable Diffusion, som bare bruker CPU for beregninger, som tillater eksperimentering på systemer uten kraftige GPUer. Krever en prosessor som støttes i OpenVINO-biblioteket. Offisielt tilbyr OpenVINO plugins for Intel-prosessorer med AVX2, AVX-512, AVX512_BF16 og SSE-utvidelser, samt for Raspberry Pi 4 Model B, Apple Mac mini og NVIDIA Jetson Nano-kort. Uoffisielt er det mulig å bruke OpenVINO på AMD Ryzen-prosessorer.
  • sdamd er en port for AMD GPUer.
  • En innledende implementering av videosyntese.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafiske grensesnitt for å generere bilder ved hjelp av Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - nettgrensesnitt for bildesyntese ved hjelp av Stable Diffusion.
  • Plugins for integrering av stabil diffusjon med GIMP, Figma, Blender og Photoshop.

I tillegg kan vi merke oss publiseringen av Google av koden til RawNeRF (RAW Neural Radiance Fields) maskinlæringssystem, som gjør det mulig, basert på data fra flere RAW-bilder, å forbedre kvaliteten på svært støyende bilder tatt i mørket og i dårlig belysning. I tillegg til å eliminere støy, gjør verktøyene utviklet av prosjektet det mulig å øke detaljer, eliminere gjenskinn, syntetisere HDR og endre den generelle belysningen i fotografier, samt gjenskape den tredimensjonale posisjonen til objekter ved hjelp av flere fotografier fra forskjellige vinkler, endre synsvinkelen, manipuler fokus og generer bevegelige bilder.

Maskinlæringssystemer for bildesyntese og støyreduksjon i nattbilder
Maskinlæringssystemer for bildesyntese og støyreduksjon i nattbilder


Kilde: opennet.ru

Legg til en kommentar