Stable Diffusion 2.0画像合成システムを導入

Stability AI は、Stable Diffusion 機械学習システムの第 XNUMX 版を公開しました。このシステムは、提案されたテンプレートまたは自然言語テキストの説明に基づいて画像を合成および変更できます。 ニューラル ネットワークのトレーニングと画像生成用のツールのコードは、PyTorch フレームワークを使用して Python で記述され、MIT ライセンスに基づいて公開されています。 すでにトレーニングされたモデルは、商用利用が許可されている Creative ML OpenRAIL-M 許容ライセンスの下で公開されています。 さらに、デモのオンライン画像ジェネレーターも利用できます。

Stable Diffusion の新版の主な改善点:

  • テキスト記述に基づく画像合成の新しいモデル SD2.0-v が作成され、解像度 768×768 の画像の生成をサポートします。 新しいモデルは、テキスト説明を含む 5 億 5.85 万枚の画像の LAION-1.5B コレクションを使用してトレーニングされました。 このモデルは、Stable Diffusion XNUMX モデルと同じ一連のパラメーターを使用しますが、根本的に異なる OpenCLIP-ViT/H エンコーダーの使用への移行が異なり、結果として得られる画像の品質を大幅に向上させることができます。
    Stable Diffusion 2.0画像合成システムを導入
  • 簡略化された SD2.0 ベースのバージョンが用意されており、古典的なノイズ予測モデルを使用して 256×256 画像でトレーニングされ、解像度 512×512 の画像生成をサポートしています。
    Stable Diffusion 2.0画像合成システムを導入
  • スーパーサンプリング (超解像度) のテクノロジーを使用する可能性が提供され、空間スケーリングと細部の再構成のアルゴリズムを使用して、品質を低下させることなく元の画像の解像度を向上させることができます。 提供される画像処理モデル(SD20アップスケーラー)は2048倍アップスケーリングをサポートしており、解像度2048×XNUMXの画像を生成できます。
    Stable Diffusion 2.0画像合成システムを導入
  • オブジェクトの奥行きと空間配置を考慮した SD2.0- Depth2img モデルが提案されています。 MiDaS システムは、単眼の深度推定に使用されます。 このモデルを使用すると、別の画像をテンプレートとして使用して新しい画像を合成できます。元の画像とは根本的に異なる可能性がありますが、全体の構成と奥行きは保持されます。 たとえば、写真内の人物のポーズを使用して、同じポーズの別のキャラクターを作成できます。
    Stable Diffusion 2.0画像合成システムを導入
    Stable Diffusion 2.0画像合成システムを導入
    Stable Diffusion 2.0画像合成システムを導入
  • 画像を変更するためのモデルが更新されました - SD 2.0-修復により、テキスト プロンプトを使用して画像の一部を置換および変更できるようになります。
    Stable Diffusion 2.0画像合成システムを導入
  • モデルは、XNUMX つの GPU を備えた従来のシステムで使用するために最適化されています。

Stable Diffusion 2.0画像合成システムを導入


出所: オープンネット.ru

コメントを追加します