Sustavi strojnog učenja za sintezu slike i smanjenje šuma na noćnim fotografijama

Stability AI objavio je gotove modele za sustav strojnog učenja Stable Diffusion, sposoban sintetizirati i modificirati slike na temelju tekstualnog opisa na prirodnom jeziku. Modeli su licencirani pod dopuštenom licencom Creative ML OpenRAIL-M za komercijalnu upotrebu. Za treniranje sustava korišten je klaster od 4000 NVIDIA A100 Ezra-1 GPU-a i zbirka LAION-5B, uključujući 5.85 milijardi slika s tekstualnim opisima. Prethodno je kôd za alate za obuku neuronske mreže i generiranje slika bio otvoren pod licencom MIT-a.

Dostupnost gotovog modela i prilično skromni sistemski zahtjevi koji omogućuju pokretanje eksperimenata na osobnom računalu sa standardnim grafičkim procesorima doveli su do pojave niza povezanih projekata:

  • textual-inversion (code) - dodatak koji vam omogućuje sintetiziranje slika s danim likom, objektom ili stilom. U izvornoj Stable Diffusion, objekti na sintetiziranim slikama su nasumični i nekontrolirani. Predloženi dodatak vam omogućuje da dodate svoje vlastite vizualne objekte, povežete ih s ključnim riječima i koristite ih u sintezi.

    Na primjer, u redovnoj stabilnoj difuziji možete zatražiti od sustava da generira sliku s "mačkom u čamcu". Osim toga, možete razjasniti karakteristike mačke i čamca, ali je nepredvidivo koja će se mačka i čamac sintetizirati. Tekstualna inverzija vam omogućuje da uvježbate sustav na slici vaše mačke ili broda i sintetizirate sliku s određenom mačkom ili brodom. Na sličan način također može zamijeniti elemente slike određenim objektima, postaviti primjer vizualnog stila za sintezu i specificirati koncepte (na primjer, iz cijele raznolikosti liječnika možete koristiti točniji i kvalitetniji odabir u željenom stilu).

    Sustavi strojnog učenja za sintezu slike i smanjenje šuma na noćnim fotografijama

  • stable-diffusion-animation - stvaranje animiranih (pokretnih) slika na temelju interpolacije između slika generiranih u Stable Diffusion.
  • stable_diffusion.openvino (kod) - port Stable Diffusion, koji koristi samo CPU za izračune, što omogućuje eksperimentiranje na sustavima bez snažnih GPU-a. Zahtijeva procesor podržan u biblioteci OpenVINO. Službeno, OpenVINO nudi dodatke za Intel procesore s AVX2, AVX-512, AVX512_BF16 i SSE ekstenzijama, kao i za Raspberry Pi 4 Model B, Apple Mac mini i NVIDIA Jetson Nano ploče. Neslužbeno, OpenVINO je moguće koristiti na AMD Ryzen procesorima.
  • sdamd je port za AMD GPU.
  • Početna implementacija video sinteze.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafička sučelja za generiranje slika korištenjem Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - web sučelja za sintezu slike pomoću Stable Diffusion.
  • Dodaci za integraciju Stable Diffusion s GIMP-om, Figmom, Blenderom i Photoshopom.

Dodatno, možemo primijetiti Googleovu objavu koda sustava strojnog učenja RawNeRF (RAW Neural Radiance Fields), koji omogućuje, na temelju podataka iz nekoliko RAW slika, poboljšanje kvalitete slika s velikim šumom snimljenih u mraku iu slabo osvjetljenje. Osim uklanjanja buke, alati razvijeni projektom omogućuju povećanje detalja, uklanjanje odsjaja, sintezu HDR-a i promjenu cjelokupnog osvjetljenja na fotografijama, kao i rekreaciju trodimenzionalnog položaja objekata korištenjem nekoliko fotografija iz različitih kutova, promijeniti točku gledišta, manipulirati fokusom i generirati pokretne slike.

Sustavi strojnog učenja za sintezu slike i smanjenje šuma na noćnim fotografijama
Sustavi strojnog učenja za sintezu slike i smanjenje šuma na noćnim fotografijama


Izvor: opennet.ru

Dodajte komentar