Mašīnmācīšanās sistēmas attēlu sintēzei un trokšņu samazināšanai nakts fotogrāfijās

Stability AI ir publicējis gatavus modeļus Stable Diffusion mašīnmācīšanās sistēmai, kas spēj sintezēt un modificēt attēlus, pamatojoties uz teksta aprakstu dabiskā valodā. Modeļi ir licencēti saskaņā ar Creative ML OpenRAIL-M licenci komerciālai lietošanai. Lai apmācītu sistēmu, tika izmantots 4000 NVIDIA A100 Ezra-1 GPU un LAION-5B kolekcija, tostarp 5.85 miljardi attēlu ar teksta aprakstiem. Iepriekš kods instrumentiem neironu tīkla apmācībai un attēlu ģenerēšanai bija atvērtā koda avots saskaņā ar MIT licenci.

Gatavā modeļa pieejamība un diezgan pieticīgās sistēmas prasības, kas ļauj sākt eksperimentus datorā ar standarta GPU, ir noveduši pie vairāku saistītu projektu rašanās:

  • textual-inversion (kods) - papildinājums, kas ļauj sintezēt attēlus ar noteiktu rakstzīmi, objektu vai stilu. Sākotnējā Stabilā difūzijā objekti sintezētajos attēlos ir nejauši un nekontrolējami. Piedāvātais papildinājums ļauj pievienot savus vizuālos objektus, saistīt tos ar atslēgvārdiem un izmantot tos sintēzē.

    Piemēram, parastajā Stable Diffusion varat lūgt sistēmai ģenerēt attēlu ar "kaķi laivā". Turklāt jūs varat precizēt kaķa un laivas īpašības, taču nav iespējams paredzēt, kurš kaķis un laiva tiks sintezēti. Teksta inversija ļauj apmācīt sistēmu jūsu kaķa vai laivas attēlam un sintezēt attēlu ar konkrētu kaķi vai laivu. Līdzīgā veidā tas var arī aizstāt attēla elementus ar noteiktiem objektiem, izveidot sintēzes vizuālā stila piemēru un norādīt jēdzienus (piemēram, no visas ārstu dažādības var izmantot precīzāku un kvalitatīvāku atlasi vēlamajā stilā).

    Mašīnmācīšanās sistēmas attēlu sintēzei un trokšņu samazināšanai nakts fotogrāfijās

  • Stable-diffusion-animation - animētu (kustīgu) attēlu izveide, pamatojoties uz interpolāciju starp attēliem, kas ģenerēti Stable Diffusion.
  • stable_diffusion.openvino (kods) - Stable Diffusion ports, kas aprēķiniem izmanto tikai centrālo procesoru, kas ļauj eksperimentēt sistēmās bez jaudīgiem GPU. Nepieciešams OpenVINO bibliotēkā atbalstīts procesors. Oficiāli OpenVINO nodrošina spraudņus Intel procesoriem ar AVX2, AVX-512, AVX512_BF16 un SSE paplašinājumiem, kā arī Raspberry Pi 4 Model B, Apple Mac mini un NVIDIA Jetson Nano platēm. Neoficiāli OpenVINO ir iespējams izmantot AMD Ryzen procesoros.
  • sdamd ir ports AMD GPU.
  • Video sintēzes sākotnējā realizācija.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafiskās saskarnes attēlu ģenerēšanai, izmantojot Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI — tīmekļa saskarnes attēlu sintēzei, izmantojot Stable Diffusion.
  • Spraudņi Stable Diffusion integrēšanai ar GIMP, Figma, Blender un Photoshop.

Turklāt mēs varam atzīmēt, ka Google ir publicējis RawNeRF (RAW Neural Radiance Fields) mašīnmācīšanās sistēmas kodu, kas, pamatojoties uz vairāku RAW attēlu datiem, ļauj uzlabot tumsā un laikā uzņemtu ļoti trokšņainu attēlu kvalitāti. slikts apgaismojums. Papildus trokšņu novēršanai, projektā izstrādātie rīki ļauj palielināt detalizāciju, novērst atspīdumu, sintezēt HDR un mainīt kopējo apgaismojumu fotogrāfijās, kā arī atjaunot objektu trīsdimensiju pozīciju, izmantojot vairākas fotogrāfijas no dažādiem leņķiem, mainiet skatu punktu, manipulējiet ar fokusu un ģenerējiet kustīgus attēlus.

Mašīnmācīšanās sistēmas attēlu sintēzei un trokšņu samazināšanai nakts fotogrāfijās
Mašīnmācīšanās sistēmas attēlu sintēzei un trokšņu samazināšanai nakts fotogrāfijās


Avots: opennet.ru

Pievieno komentāru