🥇Maskininlärningssystem för bildsyntes och brusreducering i nattbilder

Stability AI har publicerat färdiga modeller för maskininlärningssystemet Stable Diffusion, som kan syntetisera och modifiera bilder baserat på en textbeskrivning på naturligt språk. Modeller är licensierade under en tillåten Creative ML OpenRAIL-M-licens för kommersiellt bruk. För att träna systemet användes ett kluster av 4000 NVIDIA A100 Ezra-1 GPU:er och en LAION-5B-samling, inklusive 5.85 miljarder bilder med textbeskrivningar. Tidigare var koden för verktyg för att träna ett neuralt nätverk och generera bilder öppen källkod under MIT-licensen.

Tillgängligheten av en färdig modell och ganska blygsamma systemkrav som gör att man kan starta experiment på en PC med standard GPU har lett till uppkomsten av ett antal relaterade projekt:

textual-inversion (kod) - ett tillägg som låter dig syntetisera bilder med en given karaktär, objekt eller stil. I den ursprungliga Stable Diffusion är objekten i de syntetiserade bilderna slumpmässiga och okontrollerbara. Det föreslagna tillägget låter dig lägga till dina egna visuella objekt, binda dem till nyckelord och använda dem i syntes.
Till exempel, i vanlig Stall Diffusion kan du be systemet att generera en bild med en "katt i en båt". Dessutom kan du klargöra egenskaperna hos katten och båten, men det är oförutsägbart vilken katt och båt som kommer att syntetiseras. Textinversion låter dig träna systemet på en bild av din katt eller båt och syntetisera bilden med en specifik katt eller båt. På ett liknande sätt kan det också ersätta bildelement med vissa objekt, sätta ett exempel på en visuell stil för syntes och specificera koncept (till exempel från alla olika läkare kan du använda ett mer exakt och högkvalitativt urval i önskad stil).
stable-diffusion-animation - skapande av animerade (rörliga) bilder baserat på interpolation mellan bilder genererade i Stable Diffusion.
stable_diffusion.openvino (kod) - en port för Stable Diffusion, som endast använder CPU:n för beräkningar, vilket gör att du kan experimentera på system utan kraftfulla GPU:er. Kräver en processor som stöds i OpenVINO-biblioteket. Officiellt tillhandahåller OpenVINO plugins för Intel-processorer med AVX2, AVX-512, AVX512_BF16 och SSE-tillägg, såväl som för Raspberry Pi 4 Model B, Apple Mac mini och NVIDIA Jetson Nano-kort. Inofficiellt är det möjligt att använda OpenVINO på AMD Ryzen-processorer.
sdamd är en port för AMD GPU:er.
En första implementering av videosyntes.
stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafiska gränssnitt för att generera bilder med hjälp av Stable Diffusion.
beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - webbgränssnitt för bildsyntes med hjälp av Stable Diffusion.
Plugins för att integrera Stable Diffusion med GIMP, Figma, Blender och Photoshop.

Dessutom kan vi notera publiceringen av Google av koden för RawNeRF (RAW Neural Radiance Fields) maskininlärningssystem, som gör det möjligt att, baserat på data från flera RAW-bilder, förbättra kvaliteten på mycket brusiga bilder tagna i mörker och i dålig belysning. Förutom att eliminera brus, gör verktygen som utvecklats av projektet det möjligt att öka detaljerna, eliminera bländning, syntetisera HDR och ändra den övergripande ljussättningen i fotografier, samt återskapa den tredimensionella positionen för objekt med hjälp av flera fotografier från olika vinklar, ändra synvinkeln, manipulera fokus och generera rörliga bilder.

Maskininlärningssystem för bildsyntes och brusreducering i nattbilder

Källa: opennet.ru