Systémy strojového učení pro syntézu obrazu a redukci šumu na nočních fotografiích

Stability AI zveřejnila hotové modely pro systém strojového učení Stable Diffusion, který je schopen syntetizovat a upravovat obrázky na základě textového popisu v přirozeném jazyce. Modely jsou licencovány pod licencí Creative ML OpenRAIL-M pro komerční použití. K trénování systému byl použit cluster 4000 GPU NVIDIA A100 Ezra-1 a kolekce LAION-5B, včetně 5.85 miliardy obrázků s textovým popisem. Dříve byl kód pro nástroje pro trénování neuronové sítě a generování obrázků open-source pod licencí MIT.

Dostupnost hotového modelu a poměrně skromné ​​systémové požadavky, které umožňují zahájit experimenty na PC se standardními GPU, vedly ke vzniku řady souvisejících projektů:

  • textová inverze (kód) - doplněk, který umožňuje syntetizovat obrázky s daným znakem, objektem nebo stylem. V původní Stable Diffusion jsou objekty v syntetizovaných obrázcích náhodné a nekontrolovatelné. Navrhovaný doplněk umožňuje přidávat vlastní vizuální objekty, vázat je na klíčová slova a používat je při syntéze.

    Například v běžném Stable Diffusion můžete požádat systém, aby vygeneroval obrázek s „kočkou ve člunu“. Navíc můžete objasnit vlastnosti kočky a lodi, ale je nepředvídatelné, která kočka a loď budou syntetizovány. Textová inverze vám umožňuje trénovat systém na obrázku vaší kočky nebo lodi a syntetizovat obrázek s konkrétní kočkou nebo lodí. Obdobným způsobem může také nahradit obrazové prvky určitými objekty, dát příklad vizuálního stylu pro syntézu a specifikovat pojmy (např. z celé palety lékařů lze použít přesnější a kvalitnější výběr v požadovaném stylu).

    Systémy strojového učení pro syntézu obrazu a redukci šumu na nočních fotografiích

  • stable-diffusion-animation - tvorba animovaných (pohyblivých) obrázků na základě interpolace mezi obrázky generovanými ve Stable Diffusion.
  • stable_diffusion.openvino (kód) - port Stable Diffusion, který pro výpočty využívá pouze CPU, což umožňuje experimentovat na systémech bez výkonných GPU. Vyžaduje procesor podporovaný v knihovně OpenVINO. Oficiálně OpenVINO poskytuje pluginy pro procesory Intel s rozšířeními AVX2, AVX-512, AVX512_BF16 a SSE a také pro desky Raspberry Pi 4 Model B, Apple Mac mini a NVIDIA Jetson Nano. Neoficiálně je možné OpenVINO používat na procesorech AMD Ryzen.
  • sdamd je port pro GPU AMD.
  • Počáteční implementace video syntézy.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafická rozhraní pro generování obrázků pomocí Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - webová rozhraní pro syntézu obrazu pomocí Stable Diffusion.
  • Pluginy pro integraci Stable Diffusion s GIMP, Figma, Blender a Photoshop.

Dále si můžeme všimnout, že Google zveřejnil kód systému strojového učení RawNeRF (RAW Neural Radiance Fields), který umožňuje na základě dat z několika snímků RAW zlepšit kvalitu vysoce zašuměných snímků pořízených ve tmě a ve špatné osvětlení. Kromě eliminace šumu umožňují nástroje vyvinuté v rámci projektu zvýšit detaily, eliminovat odlesky, syntetizovat HDR a změnit celkové osvětlení na fotografiích, stejně jako znovu vytvořit trojrozměrnou polohu objektů pomocí několika fotografií z různých úhlů, posouvat úhel pohledu, upravovat zaostření a vytvářet pohyblivé obrázky.

Systémy strojového učení pro syntézu obrazu a redukci šumu na nočních fotografiích
Systémy strojového učení pro syntézu obrazu a redukci šumu na nočních fotografiích


Zdroj: opennet.ru

Přidat komentář