Stability AI har publicerat fÀrdiga modeller för maskininlÀrningssystemet Stable Diffusion, som kan syntetisera och modifiera bilder baserat pÄ en textbeskrivning pÄ naturligt sprÄk. Modeller Àr licensierade under en tillÄten Creative ML OpenRAIL-M-licens för kommersiellt bruk. För att trÀna systemet anvÀndes ett kluster av 4000 NVIDIA A100 Ezra-1 GPU:er och en LAION-5B-samling, inklusive 5.85 miljarder bilder med textbeskrivningar. Tidigare var koden för verktyg för att trÀna ett neuralt nÀtverk och generera bilder öppen kÀllkod under MIT-licensen.
TillgÀngligheten av en fÀrdig modell och ganska blygsamma systemkrav som gör att man kan starta experiment pÄ en PC med standard GPU har lett till uppkomsten av ett antal relaterade projekt:
- textual-inversion (kod) - ett tillÀgg som lÄter dig syntetisera bilder med en given karaktÀr, objekt eller stil. I den ursprungliga Stable Diffusion Àr objekten i de syntetiserade bilderna slumpmÀssiga och okontrollerbara. Det föreslagna tillÀgget lÄter dig lÀgga till dina egna visuella objekt, binda dem till nyckelord och anvÀnda dem i syntes.
Till exempel, i vanlig Stall Diffusion kan du be systemet att generera en bild med en "katt i en bÄt". Dessutom kan du klargöra egenskaperna hos katten och bÄten, men det Àr oförutsÀgbart vilken katt och bÄt som kommer att syntetiseras. Textinversion lÄter dig trÀna systemet pÄ en bild av din katt eller bÄt och syntetisera bilden med en specifik katt eller bÄt. PÄ ett liknande sÀtt kan det ocksÄ ersÀtta bildelement med vissa objekt, sÀtta ett exempel pÄ en visuell stil för syntes och specificera koncept (till exempel frÄn alla olika lÀkare kan du anvÀnda ett mer exakt och högkvalitativt urval i önskad stil).

- stable-diffusion-animation - skapande av animerade (rörliga) bilder baserat pÄ interpolation mellan bilder genererade i Stable Diffusion.
- stable_diffusion.openvino (kod) - en port för Stable Diffusion, som endast anvÀnder CPU:n för berÀkningar, vilket gör att du kan experimentera pÄ system utan kraftfulla GPU:er. KrÀver en processor som stöds i OpenVINO-biblioteket. Officiellt tillhandahÄller OpenVINO plugins för Intel-processorer med AVX2, AVX-512, AVX512_BF16 och SSE-tillÀgg, sÄvÀl som för Raspberry Pi 4 Model B, Apple Mac mini och NVIDIA Jetson Nano-kort. Inofficiellt Àr det möjligt att anvÀnda OpenVINO pÄ AMD Ryzen-processorer.
- sdamd Àr en port för AMD GPU:er.
- En första implementering av videosyntes.
- stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafiska grÀnssnitt för att generera bilder med hjÀlp av Stable Diffusion.
- beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - webbgrÀnssnitt för bildsyntes med hjÀlp av Stable Diffusion.
- Plugins för att integrera Stable Diffusion med GIMP, Figma, Blender och Photoshop.
Dessutom kan vi notera publiceringen av Google av koden för RawNeRF (RAW Neural Radiance Fields) maskininlÀrningssystem, som gör det möjligt att, baserat pÄ data frÄn flera RAW-bilder, förbÀttra kvaliteten pÄ mycket brusiga bilder tagna i mörker och i dÄlig belysning. Förutom att eliminera brus, gör verktygen som utvecklats av projektet det möjligt att öka detaljerna, eliminera blÀndning, syntetisera HDR och Àndra den övergripande ljussÀttningen i fotografier, samt Äterskapa den tredimensionella positionen för objekt med hjÀlp av flera fotografier frÄn olika vinklar, Àndra synvinkeln, manipulera fokus och generera rörliga bilder.




KĂ€lla: opennet.ru

