Gépi tanulási rendszerek képszintézishez és zajcsökkentéshez éjszakai fényképeken

A Stability AI kész modelleket tett közzé a Stable Diffusion gépi tanulási rendszerhez, amelyek természetes nyelvű szöveges leírás alapján képesek képeket szintetizálni és módosítani. A modellek kereskedelmi használatra engedélyezett Creative ML OpenRAIL-M licenc alatt állnak. A rendszer betanításához egy 4000 NVIDIA A100 Ezra-1 GPU-ból álló klasztert és egy LAION-5B gyűjteményt használtak, amely 5.85 milliárd képet tartalmaz szöveges leírásokkal. Korábban a neurális hálózatok betanítására és a képek generálására szolgáló eszközök kódja nyílt forráskódú volt az MIT licenc alatt.

A kész modell elérhetősége és a meglehetősen szerény rendszerkövetelmények, amelyek lehetővé teszik a kísérletek elindítását szabványos GPU-kkal rendelkező PC-n, számos kapcsolódó projekt megjelenéséhez vezetett:

  • textual-inversion (kód) - egy kiegészítő, amely lehetővé teszi képek szintetizálását egy adott karakterrel, objektummal vagy stílussal. Az eredeti stabil diffúzióban a szintetizált képeken szereplő objektumok véletlenszerűek és ellenőrizhetetlenek. A javasolt kiegészítő lehetővé teszi saját vizuális objektumok hozzáadását, kulcsszavakhoz kötését és szintézisben való felhasználását.

    Például a normál Stable Diffusion esetén megkérheti a rendszert, hogy hozzon létre egy képet a „macska a csónakban” képével. Ezenkívül tisztázhatja a macska és a csónak jellemzőit, de megjósolhatatlan, hogy melyik macska és csónak jön létre. A szöveg-inverzió lehetővé teszi, hogy a rendszert macskája vagy csónakja képére tanítsa, és a képet szintetizálja egy adott macskával vagy csónakkal. Hasonló módon képes a képelemeket is helyettesíteni bizonyos objektumokkal, példát mutatni a szintézis vizuális stílusára, és meghatározni fogalmakat (például az orvosok teljes választékából pontosabb és minőségibb válogatást használhat a kívánt stílusban).

    Gépi tanulási rendszerek képszintézishez és zajcsökkentéshez éjszakai fényképeken

  • stable-diffusion-animation - animált (mozgó) képek létrehozása a Stable Diffusion-ban generált képek közötti interpoláció alapján.
  • stable_diffusion.openvino (kód) – a Stable Diffusion portja, amely csak a CPU-t használja a számításokhoz, ami lehetővé teszi a kísérletezést erős GPU-k nélküli rendszereken. Az OpenVINO könyvtárban támogatott processzor szükséges. Hivatalosan az OpenVINO bővítményeket biztosít az Intel processzorokhoz AVX2, AVX-512, AVX512_BF16 és SSE kiterjesztéssel, valamint Raspberry Pi 4 Model B, Apple Mac mini és NVIDIA Jetson Nano kártyákhoz. Nem hivatalosan az OpenVINO használata lehetséges AMD Ryzen processzorokon.
  • Az sdamd az AMD GPU-k portja.
  • A videoszintézis kezdeti megvalósítása.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafikus felületek a Stable Diffusion használatával képek előállításához.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI – webes felületek képszintézishez a Stable Diffusion használatával.
  • Beépülő modulok a Stable Diffusion integrálásához GIMP, Figma, Blender és Photoshop programokkal.

Emellett megjegyezzük, hogy a Google közzétette a RawNeRF (RAW Neural Radiance Fields) gépi tanulási rendszer kódját, amely több RAW kép adatai alapján lehetővé teszi a sötétben és a sötétben készült, erősen zajos képek minőségének javítását. rossz megvilágítás. A projekt által kifejlesztett eszközök a zaj kiküszöbölése mellett lehetővé teszik a részletek növelését, a tükröződés megszüntetését, a HDR szintetizálását és a fényképek általános megvilágításának megváltoztatását, valamint a tárgyak háromdimenziós helyzetének újrateremtését több különböző szögből készült fénykép segítségével, eltolja a nézőpontot, manipulálja a fókuszt és mozgóképeket készít.

Gépi tanulási rendszerek képszintézishez és zajcsökkentéshez éjszakai fényképeken
Gépi tanulási rendszerek képszintézishez és zajcsökkentéshez éjszakai fényképeken


Forrás: opennet.ru

Hozzászólás