Masine learsystemen foar byldsynteze en lûdreduksje yn nachtfoto's

Stabiliteit AI hat ready-made modellen publisearre foar it learsysteem fan Stable Diffusion masine, by steat om ôfbyldings te synthesisearjen en te feroarjen op basis fan in tekstbeskriuwing yn natuerlike taal. Modellen wurde lisinsje jûn ûnder in permissive Creative ML OpenRAIL-M lisinsje foar kommersjeel gebrûk. Om it systeem te trenen, waarden in kluster fan 4000 NVIDIA A100 Ezra-1 GPU's en in LAION-5B-kolleksje, ynklusyf 5.85 miljard ôfbyldings mei tekstbeskriuwings, brûkt. Earder waard de koade foar ark foar it oplieden fan in neural netwurk en it generearjen fan ôfbyldings iepen boarne ûnder de MIT-lisinsje.

De beskikberens fan in ready-made model en frij beskieden systeemeasken dy't it mooglik meitsje om eksperiminten op in PC te begjinnen mei standert GPU's hawwe laat ta it ûntstean fan in oantal relatearre projekten:

  • textual-inversion (koade) - in tafoeging wêrmei jo ôfbyldings kinne synthesisearje mei in opjûn karakter, objekt of styl. Yn 'e orizjinele Stable Diffusion binne de objekten yn' e syntetisearre ôfbyldings willekeurich en net te kontrolearjen. De foarstelde tafoeging lit jo jo eigen fisuele objekten tafoegje, se oan kaaiwurden bine en se brûke yn synteze.

    Bygelyks, yn gewoane Stable Diffusion kinne jo it systeem freegje om in ôfbylding te generearjen mei in "kat yn in boat". Derneist kinne jo de skaaimerken fan 'e kat en de boat ferdúdlikje, mar it is ûnfoarspelber hokker kat en boat sil wurde synthesized. Tekstuele omkearing lit jo it systeem traine op in ôfbylding fan jo kat of boat en it byld synthesisearje mei in spesifike kat of boat. Op in fergelykbere manier kin it ek ôfbyldings-eleminten ferfange troch bepaalde objekten, in foarbyld fan in fisuele styl foar synteze ynstelle en konsepten spesifisearje (bygelyks út it heule ferskaat oan dokters kinne jo in krekter en heechweardige seleksje brûke yn de winske styl).

    Masine learsystemen foar byldsynteze en lûdreduksje yn nachtfoto's

  • stable-diffusion-animation - oanmeitsjen fan animearre (bewegende) ôfbyldings basearre op ynterpolaasje tusken ôfbyldings generearre yn Stable Diffusion.
  • stable_diffusion.openvino (koade) - in haven fan Stable Diffusion, dy't brûkt allinnich de CPU foar berekkeningen, dat makket it mooglik om te eksperimintearjen op systemen sûnder krêftige GPUs. Fereasket in prosessor stipe yn de OpenVINO bibleteek. Offisjeel leveret OpenVINO plugins foar Intel-processors mei AVX2, AVX-512, AVX512_BF16 en SSE-útwreidings, lykas ek foar Raspberry Pi 4 Model B, Apple Mac mini en NVIDIA Jetson Nano-boerden. Unoffisjeel is it mooglik om OpenVINO te brûken op AMD Ryzen-processors.
  • sdamd is in haven foar AMD GPUs.
  • In earste ymplemintaasje fan fideosynteze.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafyske ynterfaces foar it generearjen fan ôfbyldings mei help fan Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - webynterfaces foar ôfbyldingsynteze mei Stable Diffusion.
  • Plugins foar yntegraasje fan stabile diffusion mei GIMP, Figma, Blender en Photoshop.

Derneist kinne wy ​​​​de publikaasje troch Google fan 'e koade fan' e RawNeRF (RAW Neural Radiance Fields) masine-learsysteem opmerke, wêrtroch, basearre op gegevens fan ferskate RAW-ôfbyldings, de kwaliteit kin ferbetterje fan heul lawaaierige ôfbyldings makke yn it tsjuster en yn min ferljochting. Neist it eliminearjen fan lûd, meitsje de ark ûntwikkele troch it projekt it mooglik om detail te fergrutsjen, glare te eliminearjen, HDR te syntetisearjen en de algemiene ferljochting yn foto's te feroarjen, en ek de trijediminsjonale posysje fan objekten opnij oan te meitsjen mei ferskate foto's út ferskate hoeken, ferskowe it eachpunt, manipulearje fokus en generearje bewegende ôfbyldings.

Masine learsystemen foar byldsynteze en lûdreduksje yn nachtfoto's
Masine learsystemen foar byldsynteze en lûdreduksje yn nachtfoto's


Boarne: opennet.ru

Add a comment