Sistemi strojnega učenja za sintezo slike in zmanjšanje šuma na nočnih fotografijah

Stabilnost AI je objavila že pripravljene modele za sistem strojnega učenja Stable Diffusion, ki lahko sintetizira in spreminja slike na podlagi besedilnega opisa v naravnem jeziku. Modeli so licencirani pod permisivno licenco Creative ML OpenRAIL-M za komercialno uporabo. Za usposabljanje sistema je bila uporabljena skupina 4000 grafičnih procesorjev NVIDIA A100 Ezra-1 in zbirka LAION-5B, vključno s 5.85 milijarde slik z besedilnimi opisi. Prej je bila koda za orodja za usposabljanje nevronske mreže in generiranje slik odprtokodna pod licenco MIT.

Razpoložljivost že pripravljenega modela in dokaj skromne sistemske zahteve, ki omogočajo začetek poskusov na osebnem računalniku s standardnimi grafičnimi procesorji, so pripeljale do nastanka številnih povezanih projektov:

  • textual-inversion (code) - dodatek, ki vam omogoča sintetiziranje slik z danim znakom, predmetom ali slogom. V izvirni Stabilni difuziji so predmeti na sintetiziranih slikah naključni in jih ni mogoče nadzorovati. Predlagani dodatek vam omogoča, da dodate lastne vizualne predmete, jih povežete s ključnimi besedami in jih uporabite v sintezi.

    Na primer, v navadni stabilni difuziji lahko od sistema zahtevate, da ustvari sliko z "mačko v čolnu". Poleg tega lahko razjasnite značilnosti mačke in čolna, vendar je nepredvidljivo, katera mačka in čoln bosta sintetizirana. Besedilna inverzija vam omogoča, da urite sistem na sliki vaše mačke ali čolna in sintetizirate sliko z določeno mačko ali čolnom. Na podoben način lahko tudi zamenja slikovne elemente z določenimi predmeti, postavi primer vizualnega sloga za sintezo in določi koncepte (npr. iz celotne raznolikosti zdravnikov lahko uporabite natančnejši in kakovostnejši izbor v želenem slogu).

    Sistemi strojnega učenja za sintezo slike in zmanjšanje šuma na nočnih fotografijah

  • stable-diffusion-animation - ustvarjanje animiranih (gibljivih) slik na podlagi interpolacije med slikami, ustvarjenimi v Stable Diffusion.
  • stable_diffusion.openvino (koda) - vrata Stable Diffusion, ki za izračune uporablja samo CPE, kar omogoča eksperimentiranje na sistemih brez zmogljivih GPU. Zahteva procesor, ki ga podpira knjižnica OpenVINO. Uradno OpenVINO ponuja vtičnike za procesorje Intel z razširitvami AVX2, AVX-512, AVX512_BF16 in SSE, pa tudi za plošče Raspberry Pi 4 Model B, Apple Mac mini in NVIDIA Jetson Nano. Neuradno je možno uporabljati OpenVINO na procesorjih AMD Ryzen.
  • sdamd je vrata za grafične procesorje AMD.
  • Začetna izvedba video sinteze.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest – grafični vmesniki za generiranje slik z uporabo Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - spletni vmesniki za sintezo slik z uporabo Stable Diffusion.
  • Vtičniki za integracijo Stable Diffusion z GIMP, Figma, Blender in Photoshop.

Poleg tega lahko omenimo objavo Googlove kode sistema strojnega učenja RawNeRF (RAW Neural Radiance Fields), ki omogoča na podlagi podatkov iz več slik RAW izboljšati kakovost slik z visokim šumom, posnetih v temi in v slaba osvetlitev. Poleg odpravljanja hrupa orodja, razvita v okviru projekta, omogočajo povečanje podrobnosti, odpravo bleščanja, sintezo HDR in spreminjanje splošne osvetlitve na fotografijah, kot tudi poustvarjanje tridimenzionalnega položaja predmetov z uporabo več fotografij iz različnih zornih kotov, premikanje zornega kota, upravljanje fokusa in ustvarjanje gibljivih slik.

Sistemi strojnega učenja za sintezo slike in zmanjšanje šuma na nočnih fotografijah
Sistemi strojnega učenja za sintezo slike in zmanjšanje šuma na nočnih fotografijah


Vir: opennet.ru

Dodaj komentar