Stable Diffusion 2.0 图像合成系统推出

Stability AI 发布了 Stable Diffusion 机器学习系统的第二版,该系统能够根据建议的模式或自然语言文本描述来合成和修改图像。 神经网络训练和图像生成工具的代码是使用 PyTorch 框架用 Python 编写的,并在 MIT 许可下发布。 已训练的模型在 Creative ML OpenRAIL-M 许可下开放,允许商业使用。 此外,还提供了一个演示在线图像生成器。

新版 Stable Diffusion 的主要改进:

  • 建立了基于文本描述的图像合成新模型——SD2.0-v,支持生成分辨率为768×768的图像。 新模型是使用 LAION-5B 收集的 5.85 亿张带有文本描述的图像进行训练的。 该模型使用与 Stable Diffusion 1.5 模型相同的一组参数,但不同之处在于过渡到使用根本不同的 OpenCLIP-ViT/H 编码器,这使得显着提高生成图像的质量成为可能。
    Stable Diffusion 2.0 图像合成系统推出
  • 准备了一个简化版的SD2.0-base,使用经典的噪声预测模型在256×256的图像上进行训练,支持分辨率为512×512的图像生成。
    Stable Diffusion 2.0 图像合成系统推出
  • 提供了使用超级采样(Super Resolution)技术的可能性,以在不降低质量的情况下提高原始图像的分辨率,使用算法进行空间缩放和细节重建。 提供的图像处理模型(SD20-upscaler)支持2048x upscaling,可以生成分辨率为2048×XNUMX的图像。
    Stable Diffusion 2.0 图像合成系统推出
  • 提出了SD2.0-depth2img模型,该模型兼顾了物体的深度和空间排列。 MiDaS 系统用于单目深度估计。 该模型允许您使用另一幅图像作为模板合成新图像,这可能与原始图像截然不同,但保留整体构图和深度。 例如,您可以使用照片中人物的姿势来组成具有相同姿势的另一个角色。
    Stable Diffusion 2.0 图像合成系统推出
    Stable Diffusion 2.0 图像合成系统推出
    Stable Diffusion 2.0 图像合成系统推出
  • 修改图像的模型已更新 - SD 2.0-inpainting,它允许您使用文本提示替换和更改图像的部分。
    Stable Diffusion 2.0 图像合成系统推出
  • 模型已针对在具有单个 GPU 的传统系统上的使用进行了优化。

Stable Diffusion 2.0 图像合成系统推出


来源: opennet.ru

添加评论