Masinõppesüsteemid piltide sünteesiks ja müra vähendamiseks ööfotodel

Stability AI on avaldanud Stable Diffusion masinõppesüsteemi valmismudelid, mis on võimelised sünteesima ja muutma pilte loomulikus keeles tekstikirjelduse põhjal. Mudelid on äriliseks kasutamiseks litsentsitud Creative ML OpenRAIL-M litsentsi alusel. Süsteemi koolitamiseks kasutati 4000 NVIDIA A100 Ezra-1 GPU klastrit ja LAION-5B kollektsiooni, sealhulgas 5.85 miljardit tekstikirjeldusega pilti. Varem oli närvivõrgu treenimise ja piltide genereerimise tööriistade kood avatud lähtekoodiga MIT litsentsi alusel.

Valmismudeli kättesaadavus ja üsna tagasihoidlikud süsteeminõuded, mis võimaldavad alustada katseid standardsete GPU-dega personaalarvutis, on viinud mitmete seotud projektide ilmnemiseni:

  • textual-inversion (kood) - lisandmoodul, mis võimaldab sünteesida pilte antud märgi, objekti või stiiliga. Algses stabiilses difusioonis on sünteesitud kujutistel olevad objektid juhuslikud ja kontrollimatud. Kavandatud lisandmoodul võimaldab teil lisada oma visuaalseid objekte, siduda need märksõnadega ja kasutada neid sünteesis.

    Näiteks tavalises Stable Diffusionis saate paluda süsteemil luua pilt "kassiga paadis". Lisaks saate selgitada kassi ja paadi omadusi, kuid on ettearvamatu, milline kass ja paat sünteesitakse. Teksti inversioon võimaldab teil treenida süsteemi oma kassi või paadi kujutise järgi ja sünteesida kujutise konkreetse kassi või paadiga. Sarnaselt võib see ka asendada pildielemente teatud objektidega, luua sünteesi visuaalse stiili eeskuju ja täpsustada mõisteid (näiteks kõigi arstide hulgast saate kasutada täpsemat ja kvaliteetsemat valikut soovitud stiilis).

    Masinõppesüsteemid piltide sünteesiks ja müra vähendamiseks ööfotodel

  • stable-diffusion-animation - animeeritud (liikuvate) piltide loomine, mis põhineb Stable Diffusionis genereeritud piltide interpoleerimisel.
  • stable_diffusion.openvino (kood) – stabiilse difusiooni port, mis kasutab arvutusteks ainult CPU-d, mis võimaldab katsetada võimsate GPU-deta süsteemides. Nõuab OpenVINO teegis toetatud protsessorit. Ametlikult pakub OpenVINO pluginaid AVX2, AVX-512, AVX512_BF16 ja SSE laiendustega Inteli protsessoritele, samuti Raspberry Pi 4 Model B, Apple Mac mini ja NVIDIA Jetson Nano plaatidele. Mitteametlikult on OpenVINO-t võimalik kasutada AMD Ryzeni protsessoritel.
  • sdamd on AMD GPU-de port.
  • Videosünteesi esialgne teostus.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreederi kollaaž, difuusne-the-rest – graafilised liidesed piltide genereerimiseks Stable Diffusioni abil.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI – veebiliidesed piltide sünteesiks, kasutades Stable Diffusionit.
  • Pluginad Stable Diffusion integreerimiseks GIMPi, Figma, Blenderi ja Photoshopiga.

Lisaks võib märkida, et Google avaldas RawNeRF (RAW Neural Radiance Fields) masinõppesüsteemi koodi, mis võimaldab mitme RAW-kujutise andmete põhjal parandada pimedas ja pimedas tehtud väga mürarikaste piltide kvaliteeti. halb valgustus. Projekti väljatöötatud tööriistad võimaldavad lisaks müra elimineerimisele suurendada detailsust, kõrvaldada pimestamist, sünteesida HDR-i ja muuta fotodel üldist valgustust, samuti taasluua objektide kolmemõõtmeline asend, kasutades mitut erineva nurga alt tehtud fotot, nihutage vaatenurka, manipuleerige fookust ja looge liikuvaid pilte.

Masinõppesüsteemid piltide sünteesiks ja müra vähendamiseks ööfotodel
Masinõppesüsteemid piltide sünteesiks ja müra vähendamiseks ööfotodel


Allikas: opennet.ru

Lisa kommentaar