Sisteme de învățare automată pentru sinteza imaginilor și reducerea zgomotului în fotografiile de noapte

Stability AI a publicat modele gata făcute pentru sistemul de învățare automată Stable Diffusion, capabile să sintetizeze și să modifice imagini pe baza unei descriere text în limbaj natural. Modelele sunt licențiate în baza unei licențe permisive Creative ML OpenRAIL-M pentru utilizare comercială. Pentru a antrena sistemul, a fost folosit un cluster de 4000 de GPU-uri NVIDIA A100 Ezra-1 și o colecție LAION-5B, inclusiv 5.85 miliarde de imagini cu descrieri text. Anterior, codul pentru instrumente pentru antrenarea unei rețele neuronale și generarea de imagini era open source sub licența MIT.

Disponibilitatea unui model gata făcut și cerințele de sistem destul de modeste care permit începerea experimentelor pe un PC cu GPU-uri standard au condus la apariția unui număr de proiecte conexe:

  • textual-inversion (cod) - un add-on care vă permite să sintetizați imagini cu un anumit caracter, obiect sau stil. În Stable Diffusion originală, obiectele din imaginile sintetizate sunt aleatorii și incontrolabile. Suplimentul propus vă permite să adăugați propriile obiecte vizuale, să le legați de cuvinte cheie și să le utilizați în sinteză.

    De exemplu, în Stable Diffusion obișnuit, puteți cere sistemului să genereze o imagine cu o „pisică într-o barcă”. În plus, puteți clarifica caracteristicile pisicii și ale bărcii, dar este imprevizibil care pisică și barcă vor fi sintetizate. Inversia textuală vă permite să antrenați sistemul pe o imagine a pisicii sau a bărcii dvs. și să sintetizați imaginea cu o anumită pisică sau ambarcațiune. Într-un mod similar, poate înlocui elementele de imagine cu anumite obiecte, poate stabili un exemplu de stil vizual pentru sinteză și poate specifica concepte (de exemplu, din întreaga varietate de medici, puteți utiliza o selecție mai precisă și de înaltă calitate în stilul dorit).

    Sisteme de învățare automată pentru sinteza imaginilor și reducerea zgomotului în fotografiile de noapte

  • stable-diffusion-animation - crearea de imagini animate (în mișcare) pe baza interpolării între imaginile generate în Stable Diffusion.
  • stable_diffusion.openvino (cod) - un port al Stable Diffusion, care folosește doar CPU pentru calcule, ceea ce permite experimentarea pe sisteme fără GPU-uri puternice. Necesită un procesor acceptat în biblioteca OpenVINO. Oficial, OpenVINO furnizează pluginuri pentru procesoarele Intel cu extensii AVX2, AVX-512, AVX512_BF16 și SSE, precum și pentru plăcile Raspberry Pi 4 Model B, Apple Mac mini și NVIDIA Jetson Nano. Neoficial, este posibil să utilizați OpenVINO pe procesoarele AMD Ryzen.
  • sdamd este un port pentru GPU-uri AMD.
  • O implementare inițială a sintezei video.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - interfețe grafice pentru generarea de imagini folosind Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - interfețe web pentru sinteza imaginilor folosind Stable Diffusion.
  • Plugin-uri pentru integrarea Stable Diffusion cu GIMP, Figma, Blender și Photoshop.

În plus, putem remarca publicarea de către Google a codului sistemului de învățare automată RawNeRF (RAW Neural Radiance Fields), care permite, pe baza datelor din mai multe imagini RAW, îmbunătățirea calității imaginilor foarte zgomotoase realizate în întuneric și în iluminare slabă. Pe lângă eliminarea zgomotului, instrumentele dezvoltate de proiect fac posibilă creșterea detaliilor, eliminarea strălucirii, sintetizarea HDR și modificarea luminii generale în fotografii, precum și recrearea poziției tridimensionale a obiectelor folosind mai multe fotografii din unghiuri diferite, schimbați punctul de vedere, manipulați focalizarea și generați imagini în mișcare.

Sisteme de învățare automată pentru sinteza imaginilor și reducerea zgomotului în fotografiile de noapte
Sisteme de învățare automată pentru sinteza imaginilor și reducerea zgomotului în fotografiile de noapte


Sursa: opennet.ru

Adauga un comentariu