Stable Diffusion 2.0 Image Synthesis System introduceret

Stability AI har udgivet den anden udgave af Stable Diffusion machine learning-systemet, som er i stand til at syntetisere og ændre billeder baseret på et foreslået mønster eller en tekstbeskrivelse på naturligt sprog. Koden for værktøjer til neurale netværkstræning og billedgenerering er skrevet i Python ved hjælp af PyTorch-rammeværket og udgivet under MIT-licensen. Allerede trænede modeller er åbne under Creative ML OpenRAIL-M tilladende licens, som tillader kommerciel brug. Derudover er en demo online billedgenerator tilgængelig.

Vigtigste forbedringer i den nye udgave af Stable Diffusion:

  • En ny model til billedsyntese baseret på tekstbeskrivelse — SD2.0-v — er blevet skabt, som understøtter generering af billeder med en opløsning på 768×768. Den nye model blev trænet ved hjælp af LAION-5B-samlingen på 5.85 milliarder billeder med tekstbeskrivelser. Modellen bruger det samme sæt parametre som Stable Diffusion 1.5-modellen, men adskiller sig ved overgangen til at bruge en fundamentalt anderledes OpenCLIP-ViT/H encoder, som gjorde det muligt at forbedre kvaliteten af ​​de resulterende billeder markant.
    Stable Diffusion 2.0 Image Synthesis System introduceret
  • En forenklet version af SD2.0-basen er blevet udarbejdet, trænet på 256×256 billeder ved hjælp af den klassiske støjforudsigelsesmodel og understøttende billedgenerering med en opløsning på 512×512.
    Stable Diffusion 2.0 Image Synthesis System introduceret
  • Muligheden for at bruge teknologien til supersampling (Super Resolution) er tilvejebragt for at øge opløsningen af ​​det originale billede uden at reducere kvaliteten ved at bruge algoritmer til rumlig skalering og rekonstruktion af detaljer. Den medfølgende billedbehandlingsmodel (SD20-upscaler) understøtter 2048x opskalering, som kan generere billeder med en opløsning på 2048×XNUMX.
    Stable Diffusion 2.0 Image Synthesis System introduceret
  • SD2.0-depth2img-modellen foreslås, som tager højde for dybden og det rumlige arrangement af objekter. MiDaS-systemet bruges til monokulær dybdeestimering. Modellen giver dig mulighed for at syntetisere nye billeder ved at bruge et andet billede som skabelon, som kan være radikalt anderledes end originalen, men bevare den overordnede komposition og dybde. For eksempel kan du bruge en persons positur på et billede til at danne en anden karakter i samme positur.
    Stable Diffusion 2.0 Image Synthesis System introduceret
    Stable Diffusion 2.0 Image Synthesis System introduceret
    Stable Diffusion 2.0 Image Synthesis System introduceret
  • Modellen til ændring af billeder er blevet opdateret - SD 2.0-inpainting, som giver dig mulighed for at erstatte og ændre dele af et billede ved hjælp af tekstprompter.
    Stable Diffusion 2.0 Image Synthesis System introduceret
  • Modeller er blevet optimeret til brug på konventionelle systemer med en enkelt GPU.

Stable Diffusion 2.0 Image Synthesis System introduceret


Kilde: opennet.ru

Tilføj en kommentar