Stable Diffusion 2.0 圖像合成系統推出

Stability AI 發布了 Stable Diffusion 機器學習系統的第二版,該系統能夠根據建議的模板或自然語言文本描述來合成和修改圖像。 神經網絡訓練和圖像生成工具的代碼是使用 PyTorch 框架用 Python 編寫的,並在 MIT 許可下發布。 已訓練的模型在 Creative ML OpenRAIL-M 許可下開放,允許商業使用。 此外,還提供了一個演示在線圖像生成器。

新版 Stable Diffusion 的主要改進:

  • 建立了基於文本描述的圖像合成新模型——SD2.0-v,支持生成分辨率為768×768的圖像。 新模型是使用 LAION-5B 收集的 5.85 億張帶有文本描述的圖像進行訓練的。 該模型使用與 Stable Diffusion 1.5 模型相同的一組參數,但不同之處在於過渡到使用根本不同的 OpenCLIP-ViT/H 編碼器,這使得顯著提高生成圖像的質量成為可能。
    Stable Diffusion 2.0 圖像合成系統推出
  • 準備了一個簡化的基於SD2.0的版本,使用經典噪聲預測模型在256×256圖像上進行訓練,並支持分辨率為512×512的圖像生成。
    Stable Diffusion 2.0 圖像合成系統推出
  • 提供了使用超級採樣(Super Resolution)技術的可能性,以在不降低質量的情況下提高原始圖像的分辨率,使用算法進行空間縮放和細節重建。 提供的圖像處理模型(SD20-upscaler)支持2048x upscaling,可以生成分辨率為2048×XNUMX的圖像。
    Stable Diffusion 2.0 圖像合成系統推出
  • 提出了SD2.0-depth2img模型,該模型兼顧了物體的深度和空間排列。 MiDaS 系統用於單目深度估計。 該模型允許您使用另一幅圖像作為模板合成新圖像,這可能與原始圖像截然不同,但保留整體構圖和深度。 例如,您可以使用照片中人物的姿勢來組成具有相同姿勢的另一個角色。
    Stable Diffusion 2.0 圖像合成系統推出
    Stable Diffusion 2.0 圖像合成系統推出
    Stable Diffusion 2.0 圖像合成系統推出
  • 修改圖像的模型已更新 - SD 2.0-inpainting,它允許您使用文本提示替換和更改圖像的部分。
    Stable Diffusion 2.0 圖像合成系統推出
  • 模型已針對在具有一個 GPU 的傳統系統上的使用進行了優化。

Stable Diffusion 2.0 圖像合成系統推出


來源: opennet.ru

添加評論