Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd

Stability AI heeft de tweede editie van het Stable Diffusion machine learning-systeem gepubliceerd, dat in staat is om afbeeldingen te synthetiseren en te wijzigen op basis van een voorgesteld patroon of tekstbeschrijving in natuurlijke taal. De code van tools voor neurale netwerktraining en het genereren van afbeeldingen is geschreven in Python met behulp van het PyTorch-framework en gepubliceerd onder de MIT-licentie. Reeds getrainde modellen zijn open onder de Creative ML OpenRAIL-M permissieve licentie, die commercieel gebruik toestaat. Daarnaast is er een demo online beeldgenerator beschikbaar.

Belangrijkste verbeteringen in de nieuwe editie van Stable Diffusion:

  • Er is een nieuw model voor beeldsynthese gemaakt op basis van tekstbeschrijving - SD2.0-v - dat het genereren van afbeeldingen met een resolutie van 768×768 ondersteunt. Het nieuwe model is getraind met behulp van de LAION-5B-collectie van 5.85 miljard afbeeldingen met tekstbeschrijvingen. Het model gebruikt dezelfde set parameters als het Stable Diffusion 1.5-model, maar verschilt door de overgang naar het gebruik van een fundamenteel andere OpenCLIP-ViT/H-encoder, waardoor de kwaliteit van de resulterende beelden aanzienlijk kon worden verbeterd.
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
  • Er is een vereenvoudigde versie van de SD2.0-basis voorbereid, getraind op 256×256 beelden met behulp van het klassieke ruisvoorspellingsmodel en ondersteunt het genereren van beelden met een resolutie van 512×512.
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
  • De mogelijkheid om de technologie van supersampling (Super Resolution) te gebruiken wordt geboden om de resolutie van het originele beeld te verhogen zonder de kwaliteit te verminderen, met behulp van algoritmen voor ruimtelijke schaalvergroting en reconstructie van details. Het meegeleverde beeldverwerkingsmodel (SD20-upscaler) ondersteunt 2048x upscaling, wat beelden kan genereren met een resolutie van 2048×XNUMX.
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
  • Het model SD2.0-depth2img wordt voorgesteld, dat rekening houdt met de diepte en ruimtelijke ordening van objecten. Het MiDaS-systeem wordt gebruikt voor monoculaire diepteschatting. Met het model kunt u nieuwe afbeeldingen synthetiseren met een andere afbeelding als sjabloon, die radicaal kan verschillen van het origineel, maar de algehele compositie en diepte behoudt. U kunt bijvoorbeeld de pose van een persoon op een foto gebruiken om een ​​ander personage in dezelfde pose te vormen.
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
  • Het model voor het wijzigen van afbeeldingen is bijgewerkt - SD 2.0-inpainting, waarmee u delen van een afbeelding kunt vervangen en wijzigen met behulp van tekstprompts.
    Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd
  • Modellen zijn geoptimaliseerd voor gebruik op conventionele systemen met een enkele GPU.

Stabiel diffusie 2.0 beeldsynthesesysteem geïntroduceerd


Bron: opennet.ru

Voeg een reactie