Mašininio mokymosi sistemos vaizdo sintezei ir triukšmo mažinimui naktinėse nuotraukose

„Stability AI“ paskelbė paruoštus „Stable Diffusion“ mašininio mokymosi sistemos modelius, galinčius sintetinti ir modifikuoti vaizdus pagal tekstinį aprašymą natūralia kalba. Modeliai yra licencijuoti pagal leistiną Creative ML OpenRAIL-M licenciją komerciniam naudojimui. Sistemai apmokyti buvo panaudota 4000 NVIDIA A100 Ezra-1 GPU ir LAION-5B kolekcija, įskaitant 5.85 milijardo vaizdų su tekstiniais aprašymais. Anksčiau neuroninio tinklo mokymo ir vaizdų generavimo įrankių kodas buvo atviro kodo pagal MIT licenciją.

Paruošto modelio prieinamumas ir gana kuklūs sistemos reikalavimai, leidžiantys pradėti eksperimentus asmeniniame kompiuteryje su standartiniais GPU, lėmė daugybės susijusių projektų atsiradimą:

  • textual-inversion (kodas) - priedas, leidžiantis susintetinti vaizdus su nurodytu simboliu, objektu ar stiliumi. Originaliame „Stable Diffusion“ sintezuotų vaizdų objektai yra atsitiktiniai ir nekontroliuojami. Siūlomas priedas leidžia pridėti savo vaizdinius objektus, susieti juos su raktiniais žodžiais ir naudoti juos sintezėje.

    Pavyzdžiui, įprastoje „Stable Diffusion“ sistemoje galite paprašyti sistemos sugeneruoti vaizdą su „kate valtyje“. Be to, galite paaiškinti katės ir valties savybes, tačiau nenuspėjama, kuri katė ir valtis bus susintetinti. Teksto inversija leidžia jums išmokyti sistemą pagal jūsų katės ar valties atvaizdą ir susintetinti vaizdą su konkrečia kate ar laivu. Panašiai jis taip pat gali pakeisti vaizdo elementus tam tikrais objektais, parodyti vizualinio stiliaus pavyzdį sintezei ir nurodyti sąvokas (pavyzdžiui, iš įvairių gydytojų galite naudoti tikslesnį ir kokybiškesnį pasirinkimą norimu stiliumi).

    Mašininio mokymosi sistemos vaizdo sintezei ir triukšmo mažinimui naktinėse nuotraukose

  • Stable-diffusion-animation – animuotų (judančių) vaizdų kūrimas remiantis interpoliacija tarp paveikslėlių, sugeneruotų stabilioje difuzijoje.
  • stable_diffusion.openvino (kodas) - Stable Diffusion prievadas, kuris skaičiavimams naudoja tik centrinį procesorių, kuris leidžia eksperimentuoti su sistemomis be galingų GPU. Reikia procesoriaus, palaikomo OpenVINO bibliotekoje. Oficialiai OpenVINO teikia įskiepius Intel procesoriams su AVX2, AVX-512, AVX512_BF16 ir SSE plėtiniais, taip pat Raspberry Pi 4 Model B, Apple Mac mini ir NVIDIA Jetson Nano plokštėms. Neoficialiai OpenVINO galima naudoti AMD Ryzen procesoriuose.
  • sdamd yra AMD GPU prievadas.
  • Pradinis vaizdo sintezės įgyvendinimas.
  • „stable-diffusion-gui“, „stable-diffusion-ui“, „Artbreeder Collage“, „diffuse-the-rest“ – grafinės sąsajos vaizdams generuoti naudojant „Stable Diffusion“.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI – interneto sąsajos vaizdų sintezei naudojant Stable Diffusion.
  • Papildiniai, skirti integruoti Stable Diffusion su GIMP, Figma, Blender ir Photoshop.

Be to, galime atkreipti dėmesį į tai, kad „Google“ paskelbė RawNeRF (RAW Neural Radiance Fields) mašininio mokymosi sistemos kodą, kuris, remiantis kelių RAW vaizdų duomenimis, leidžia pagerinti labai triukšmingų vaizdų, darytų tamsoje ir tamsiu paros metu, kokybę. prastas apšvietimas. Projekte sukurti įrankiai ne tik pašalina triukšmą, bet ir leidžia padidinti detalumą, panaikinti akinimą, sintezuoti HDR ir keisti bendrą apšvietimą nuotraukose, taip pat atkurti trimatę objektų padėtį naudojant kelias nuotraukas iš skirtingų kampų. pakeisti žvilgsnio tašką, manipuliuoti židiniu ir generuoti judančias nuotraukas.

Mašininio mokymosi sistemos vaizdo sintezei ir triukšmo mažinimui naktinėse nuotraukose
Mašininio mokymosi sistemos vaizdo sintezei ir triukšmo mažinimui naktinėse nuotraukose


Šaltinis: opennet.ru

Добавить комментарий