Machine learning system para sa synthesis ng imahe at pagbabawas ng ingay sa mga larawan sa gabi

Ang Stability AI ay nag-publish ng mga ready-made na modelo para sa Stable Diffusion machine learning system, na may kakayahang mag-synthesize at magbago ng mga larawan batay sa isang paglalarawan ng teksto sa natural na wika. Ang mga modelo ay lisensyado sa ilalim ng isang permissive Creative ML OpenRAIL-M na lisensya para sa komersyal na paggamit. Upang sanayin ang system, ginamit ang isang kumpol ng 4000 NVIDIA A100 Ezra-1 GPU at isang koleksyon ng LAION-5B, kabilang ang 5.85 bilyong larawan na may mga paglalarawan ng teksto. Noong nakaraan, ang code para sa mga tool para sa pagsasanay ng isang neural network at pagbuo ng mga imahe ay open-sourced sa ilalim ng lisensya ng MIT.

Ang pagkakaroon ng isang handa na modelo at medyo katamtaman na mga kinakailangan ng system na nagpapahintulot sa isa na magsimula ng mga eksperimento sa isang PC na may mga karaniwang GPU ay humantong sa paglitaw ng isang bilang ng mga kaugnay na proyekto:

  • textual-inversion (code) - isang add-on na nagbibigay-daan sa iyong mag-synthesize ng mga imahe na may ibinigay na karakter, bagay o istilo. Sa orihinal na Stable Diffusion, ang mga bagay sa mga synthesize na imahe ay random at hindi nakokontrol. Ang iminungkahing add-on ay nagpapahintulot sa iyo na magdagdag ng iyong sariling mga visual na bagay, itali ang mga ito sa mga keyword at gamitin ang mga ito sa synthesis.

    Halimbawa, sa regular na Stable Diffusion maaari mong hilingin sa system na bumuo ng isang imahe na may "pusa sa isang bangka". Bukod pa rito, maaari mong linawin ang mga katangian ng pusa at ng bangka, ngunit hindi mahuhulaan kung aling pusa at bangka ang i-synthesize. Nagbibigay-daan sa iyo ang textual-inversion na sanayin ang system sa isang imahe ng iyong pusa o bangka at i-synthesize ang larawan sa isang partikular na pusa o bangka. Sa katulad na paraan, maaari rin nitong palitan ang mga elemento ng imahe ng ilang partikular na bagay, magtakda ng halimbawa ng visual na istilo para sa synthesis, at tukuyin ang mga konsepto (halimbawa, mula sa buong iba't ibang mga doktor, maaari kang gumamit ng mas tumpak at de-kalidad na seleksyon sa nais na istilo).

    Machine learning system para sa synthesis ng imahe at pagbabawas ng ingay sa mga larawan sa gabi

  • stable-diffusion-animation - paglikha ng mga animated (gumagalaw) na imahe batay sa interpolation sa pagitan ng mga larawang nabuo sa Stable Diffusion.
  • stable_diffusion.openvino (code) - isang port ng Stable Diffusion, na gumagamit lamang ng CPU para sa mga kalkulasyon, na nagpapahintulot sa pag-eksperimento sa mga system na walang malalakas na GPU. Nangangailangan ng processor na suportado sa OpenVINO library. Opisyal, nagbibigay ang OpenVINO ng mga plugin para sa mga Intel processor na may mga AVX2, AVX-512, AVX512_BF16 at SSE extension, pati na rin para sa Raspberry Pi 4 Model B, Apple Mac mini at NVIDIA Jetson Nano boards. Hindi opisyal, posibleng gamitin ang OpenVINO sa mga processor ng AMD Ryzen.
  • Ang sdamd ay isang port para sa mga AMD GPU.
  • Isang paunang pagpapatupad ng video synthesis.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - mga graphical na interface para sa pagbuo ng mga larawan gamit ang Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - mga web interface para sa synthesis ng imahe gamit ang Stable Diffusion.
  • Mga Plugin para sa pagsasama ng Stable Diffusion sa GIMP, Figma, Blender at Photoshop.

Bukod pa rito, mapapansin natin ang paglalathala ng Google ng code ng RawNeRF (RAW Neural Radiance Fields) na sistema ng pag-aaral ng makina, na nagbibigay-daan, batay sa data mula sa ilang RAW na larawan, na mapabuti ang kalidad ng napakaingay na mga larawang kinunan sa dilim at sa mahinang ilaw. Bilang karagdagan sa pag-aalis ng ingay, ang mga tool na binuo ng proyekto ay ginagawang posible upang madagdagan ang detalye, alisin ang liwanag na nakasisilaw, synthesize ang HDR at baguhin ang pangkalahatang pag-iilaw sa mga litrato, pati na rin muling likhain ang tatlong-dimensional na posisyon ng mga bagay gamit ang ilang mga larawan mula sa iba't ibang mga anggulo, ilipat ang punto ng view, manipulahin ang focus at bumuo ng mga gumagalaw na larawan.

Machine learning system para sa synthesis ng imahe at pagbabawas ng ingay sa mga larawan sa gabi
Machine learning system para sa synthesis ng imahe at pagbabawas ng ingay sa mga larawan sa gabi


Pinagmulan: opennet.ru

Magdagdag ng komento