Vélnámskerfi fyrir myndmyndun og hávaðaminnkun í næturmyndum

Stability AI hefur gefið út tilbúin líkön fyrir Stable Diffusion vélanámskerfið, sem er fær um að búa til og breyta myndum byggðar á textalýsingu á náttúrulegu máli. Módel eru með leyfi samkvæmt leyfilegu Creative ML OpenRAIL-M leyfi til notkunar í atvinnuskyni. Til að þjálfa kerfið var notaður þyrping af 4000 NVIDIA A100 Ezra-1 GPU og LAION-5B safn, þar á meðal 5.85 milljarðar mynda með textalýsingum. Áður var kóðinn fyrir verkfæri til að þjálfa taugakerfi og mynda myndir opinn undir MIT leyfinu.

Framboð á tilbúnu líkani og frekar hóflegar kerfiskröfur sem gera manni kleift að hefja tilraunir á tölvu með stöðluðum GPU hafa leitt til fjölda tengdra verkefna:

  • textual-inversion (kóði) - viðbót sem gerir þér kleift að búa til myndir með tilteknum staf, hlut eða stíl. Í upprunalegu Stable Diffusion eru hlutirnir í tilbúnu myndunum tilviljanakenndir og óviðráðanlegir. Fyrirhuguð viðbót gerir þér kleift að bæta við þínum eigin sjónrænum hlutum, binda þá við leitarorð og nota þau í samsetningu.

    Til dæmis, í venjulegri Stable Diffusion geturðu beðið kerfið um að búa til mynd með „kötti í bát“. Að auki geturðu skýrt eiginleika kattarins og bátsins, en það er ófyrirsjáanlegt hvaða köttur og bátur verða tilbúnir. Textual-inversion gerir þér kleift að þjálfa kerfið á mynd af köttinum þínum eða bátnum og búa til myndina með tilteknum kött eða bát. Á svipaðan hátt getur það einnig skipt út myndþáttum fyrir ákveðna hluti, sett dæmi um sjónrænan stíl fyrir myndun og tilgreint hugtök (til dæmis, frá öllum læknum geturðu notað nákvæmara og vandaða val í æskilegum stíl).

    Vélnámskerfi fyrir myndmyndun og hávaðaminnkun í næturmyndum

  • stable-diffusion-animation - búa til hreyfimyndir (hreyfanlegar) myndir byggðar á innskot á milli mynda sem eru búnar til í Stable Diffusion.
  • stable_diffusion.openvino (kóði) - tengi fyrir Stable Diffusion, sem notar aðeins örgjörvann fyrir útreikninga, sem gerir tilraunir á kerfum án öflugra GPUs. Krefst örgjörva sem studdur er í OpenVINO bókasafninu. Opinberlega veitir OpenVINO viðbætur fyrir Intel örgjörva með AVX2, AVX-512, AVX512_BF16 og SSE viðbótum, sem og fyrir Raspberry Pi 4 Model B, Apple Mac mini og NVIDIA Jetson Nano borð. Óopinberlega er hægt að nota OpenVINO á AMD Ryzen örgjörvum.
  • sdamd er tengi fyrir AMD GPU.
  • Upphafleg útfærsla á myndmyndun.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafískt viðmót til að búa til myndir með Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - vefviðmót fyrir myndmyndun með Stable Diffusion.
  • Viðbætur til að samþætta Stable Diffusion með GIMP, Figma, Blender og Photoshop.

Að auki getum við tekið eftir útgáfu Google á kóðanum fyrir RawNeRF (RAW Neural Radiance Fields) vélanámskerfi, sem gerir, byggt á gögnum frá nokkrum RAW myndum, kleift að bæta gæði mjög hávaðasamra mynda sem teknar eru í myrkri og í léleg lýsing. Auk þess að útrýma hávaða gera verkfærin sem verkefnið hefur þróað það mögulegt að auka smáatriði, útrýma glampa, búa til HDR og breyta heildarlýsingu í ljósmyndum, auk þess að endurskapa þrívíddarstöðu hlutar með því að nota nokkrar ljósmyndir frá mismunandi sjónarhornum, breyta sjónarhorni, stjórna fókus og búa til hreyfimyndir.

Vélnámskerfi fyrir myndmyndun og hávaðaminnkun í næturmyndum
Vélnámskerfi fyrir myndmyndun og hávaðaminnkun í næturmyndum


Heimild: opennet.ru

Bæta við athugasemd