Maskinlæringssystemer til billedsyntese og støjreduktion i natfotos

Stability AI har udgivet færdige modeller til Stable Diffusion machine learning-systemet, der er i stand til at syntetisere og ændre billeder baseret på en tekstbeskrivelse i naturligt sprog. Modeller er licenseret under en tilladelig Creative ML OpenRAIL-M-licens til kommerciel brug. For at træne systemet blev der brugt en klynge af 4000 NVIDIA A100 Ezra-1 GPU'er og en LAION-5B samling, inklusive 5.85 milliarder billeder med tekstbeskrivelser. Tidligere var koden til værktøjer til træning af et neuralt netværk og generering af billeder open source under MIT-licensen.

Tilgængeligheden af ​​en færdiglavet model og ret beskedne systemkrav, der gør det muligt at starte eksperimenter på en pc med standard GPU'er, har ført til fremkomsten af ​​en række relaterede projekter:

  • textual-inversion (kode) - en tilføjelse, der giver dig mulighed for at syntetisere billeder med en given karakter, objekt eller stil. I den originale Stable Diffusion er objekterne i de syntetiserede billeder tilfældige og ukontrollerbare. Den foreslåede tilføjelse giver dig mulighed for at tilføje dine egne visuelle objekter, binde dem til nøgleord og bruge dem i syntese.

    For eksempel kan du i almindelig Stalddiffusion bede systemet om at generere et billede med en "kat i en båd". Derudover kan du tydeliggøre kattens og bådens karakteristika, men det er uforudsigeligt, hvilken kat og båd der bliver syntetiseret. Tekstinversion giver dig mulighed for at træne systemet på et billede af din kat eller båd og syntetisere billedet med en bestemt kat eller båd. På lignende måde kan det også erstatte billedelementer med bestemte objekter, sætte et eksempel på en visuel stil til syntese og specificere koncepter (for eksempel fra hele rækken af ​​læger kan du bruge en mere nøjagtig og højkvalitets markering i den ønskede stil).

    Maskinlæringssystemer til billedsyntese og støjreduktion i natfotos

  • stable-diffusion-animation - oprettelse af animerede (bevægende) billeder baseret på interpolation mellem billeder genereret i Stable Diffusion.
  • stable_diffusion.openvino (kode) - en port af stabil diffusion, som kun bruger CPU'en til beregninger, hvilket tillader eksperimenter på systemer uden kraftige GPU'er. Kræver en processor understøttet i OpenVINO-biblioteket. Officielt leverer OpenVINO plugins til Intel-processorer med AVX2, AVX-512, AVX512_BF16 og SSE-udvidelser, samt til Raspberry Pi 4 Model B, Apple Mac mini og NVIDIA Jetson Nano-kort. Uofficielt er det muligt at bruge OpenVINO på AMD Ryzen-processorer.
  • sdamd er en port til AMD GPU'er.
  • En indledende implementering af videosyntese.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafiske grænseflader til generering af billeder ved hjælp af Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - webgrænseflader til billedsyntese ved hjælp af Stable Diffusion.
  • Plugins til integration af stabil diffusion med GIMP, Figma, Blender og Photoshop.

Derudover kan vi bemærke Googles offentliggørelse af koden til RawNeRF (RAW Neural Radiance Fields) maskinlæringssystem, som gør det muligt, baseret på data fra flere RAW-billeder, at forbedre kvaliteten af ​​meget støjende billeder taget i mørke og i dårlig belysning. Ud over at eliminere støj, gør værktøjerne udviklet af projektet det muligt at øge detaljer, eliminere blænding, syntetisere HDR og ændre den overordnede belysning i fotografier, samt genskabe den tredimensionelle position af objekter ved hjælp af flere fotografier fra forskellige vinkler, skift synsvinkel, manipuler fokus og generer levende billeder.

Maskinlæringssystemer til billedsyntese og støjreduktion i natfotos
Maskinlæringssystemer til billedsyntese og støjreduktion i natfotos


Kilde: opennet.ru

Tilføj en kommentar