Systémy strojového učenia pre syntézu obrazu a redukciu šumu na nočných fotografiách

Stability AI zverejnila hotové modely pre systém strojového učenia Stable Diffusion, ktorý je schopný syntetizovať a upravovať obrázky na základe textového popisu v prirodzenom jazyku. Modely sú licencované na základe licencie Creative ML OpenRAIL-M na komerčné použitie. Na trénovanie systému bol použitý klaster 4000 GPU NVIDIA A100 Ezra-1 a kolekcia LAION-5B vrátane 5.85 miliardy obrázkov s textovým popisom. Predtým bol kód pre nástroje na trénovanie neurónovej siete a generovanie obrázkov open-source pod licenciou MIT.

Dostupnosť hotového modelu a pomerne skromné ​​systémové požiadavky, ktoré umožňujú začať experimenty na PC so štandardnými GPU, viedli k vzniku množstva súvisiacich projektov:

  • textová inverzia (kód) - doplnok, ktorý umožňuje syntetizovať obrázky s daným znakom, objektom alebo štýlom. V origináli Stable Diffusion sú objekty v syntetizovaných obrázkoch náhodné a nekontrolovateľné. Navrhovaný doplnok vám umožňuje pridávať vlastné vizuálne objekty, spájať ich s kľúčovými slovami a používať ich pri syntéze.

    Napríklad v bežnom Stable Diffusion môžete požiadať systém, aby vygeneroval obrázok s „mačkou v člne“. Okrem toho môžete objasniť vlastnosti mačky a člna, ale je nepredvídateľné, ktorá mačka a čln budú syntetizované. Textová inverzia vám umožňuje trénovať systém na obrázku vašej mačky alebo lode a syntetizovať obrázok s konkrétnou mačkou alebo loďou. Podobným spôsobom môže nahradiť aj obrazové prvky určitými objektmi, uviesť príklad vizuálneho štýlu na syntézu a špecifikovať koncepty (napríklad z celej škály lekárov môžete použiť presnejší a kvalitnejší výber v požadovanom štýle).

    Systémy strojového učenia pre syntézu obrazu a redukciu šumu na nočných fotografiách

  • stable-diffusion-animation - vytváranie animovaných (pohyblivých) obrázkov na základe interpolácie medzi obrázkami generovanými v Stable Diffusion.
  • stable_diffusion.openvino (kód) - port Stable Diffusion, ktorý na výpočty využíva iba CPU, čo umožňuje experimentovanie na systémoch bez výkonných GPU. Vyžaduje procesor podporovaný v knižnici OpenVINO. OpenVINO oficiálne poskytuje pluginy pre procesory Intel s rozšíreniami AVX2, AVX-512, AVX512_BF16 a SSE, ako aj pre dosky Raspberry Pi 4 Model B, Apple Mac mini a NVIDIA Jetson Nano. Neoficiálne je možné použiť OpenVINO na procesoroch AMD Ryzen.
  • sdamd je port pre GPU AMD.
  • Počiatočná implementácia syntézy videa.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafické rozhrania na generovanie obrázkov pomocou Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - webové rozhrania pre syntézu obrazu pomocou Stable Diffusion.
  • Pluginy pre integráciu Stable Diffusion s GIMP, Figma, Blender a Photoshop.

Dodatočne si môžeme všimnúť, že spoločnosť Google zverejnila kód systému strojového učenia RawNeRF (RAW Neural Radiance Fields), ktorý umožňuje na základe údajov z niekoľkých snímok RAW zlepšiť kvalitu vysoko zašumených snímok zhotovených v tme a v slabé osvetlenie. Okrem eliminácie šumu nástroje vyvinuté v rámci projektu umožňujú zvýšiť detaily, eliminovať odlesky, syntetizovať HDR a zmeniť celkové osvetlenie na fotografiách, ako aj obnoviť trojrozmernú polohu objektov pomocou niekoľkých fotografií z rôznych uhlov, posúvať uhol pohľadu, upravovať zaostrovanie a vytvárať pohyblivé obrázky.

Systémy strojového učenia pre syntézu obrazu a redukciu šumu na nočných fotografiách
Systémy strojového učenia pre syntézu obrazu a redukciu šumu na nočných fotografiách


Zdroj: opennet.ru

Pridať komentár