安定したビデオディフュージョンビデオ合成システムを導入

Stability AI は、画像から短い動画を生成できる「Stable Video Diffusion」という機械学習モデルを公開しました。このモデルは、これまで静止画像の合成に限定されていた Stable Diffusion プロジェクトの機能を拡張します。ニューラル ネットワーク トレーニングおよび画像生成ツールのコードは、PyTorch フレームワークを使用して Python で記述されており、MIT ライセンスの下で公開されています。事前トレーニング済みモデルは、商用利用が認められている Creative ML OpenRAIL-M 許容ライセンスの下でオープンソース化されています。

ダウンロードには 14 つのモデル オプションがあります。指定された静止画像に基づいて解像度 576x1024 の 25 フレームを生成する SVD (Stable Video Diffusion) と、4 フレームを生成する SVD-XT です。 動きのないビデオ、または 2.1 秒以内の非常に遅いカメラ回転でビデオを生成することが可能です。 自然言語テキスト記述に基づく直接モデル制御はまだサポートされていませんが、最初に古い Stable Diffusion XNUMX モデルを使用して元の画像を準備し、次に SVD モデルを使用してそれをビデオに変換できます。

ビデオ品質はまだ理想的なフォトリアリズムを提供しておらず、顔や人物の正確なレンダリングが保証されていません。 パフォーマンスの点では、提案されたオープン モデルは、Runway および Pika Labs の独自の類似モデルよりも優れています。 このモデルは、さまざまな問題を解決するために簡単に適用でき、たとえば、XNUMX 次元図形の作成に使用できます。

動画を再生する

さらに、Video-LLaVA 機械学習ツールキットの公開にも注目してください。これにより、トレーニング中にオブジェクトの写真とビデオ記録を同時に使用することに基づいて形成された、オブジェクトの統一された視覚的表現を作成できます。 このシステムは、たとえば、画像やビデオ内の同じオブジェクトの存在を認識するために使用できます。 コードは Python で書かれており、Apache 2.0 ライセンスに基づいて配布されます。

出所: オープンネット.ru

DDoS 保護機能を備えた信頼性の高いサイト用ホスティング、VPS VDS サーバーを購入する 🔥 DDoS攻撃対策付きの信頼性の高いウェブサイトホスティング、VPS/VDSサーバーを購入しましょう | ProHoster