NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

NVIDIA は 1 月 30 日に新世代の Ampere ゲーミング グラフィックス カードを発表しましたが、最初のプレゼンテーションには技術的な詳細はほとんど含まれていませんでした。 数日後、同社は、GeForce RTX XNUMX シリーズ グラフィックス カードを以前のグラフィックス カードと区別する印象的なパフォーマンスの利点がどこから来るのかを明らかにするドキュメントをリリースしました。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

NVIDIA の Web サイトにある GeForce RTX 3090、GeForce RTX 3080、および GeForce RTX 3070 の公式仕様を見ると、驚くほど多くの CUDA プロセッサが搭載されていることが多くの人にすぐにわかりました。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

結局のところ、Ampere ゲーム プロセッサの FP32 パフォーマンスは Turing と比較して XNUMX 倍になり、これは GPU の基本構成要素であるストリーム プロセッサ (SM) のアーキテクチャの変更に関連していることがわかります。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

Turing 世代の GPU の SM には浮動小数点演算用の計算パスが 128 つありましたが、Ampere では各ストリーム プロセッサが 64 つのパスを受け取り、合計でクロック サイクルあたり最大 32 の FMA 演算を実行できるのに対し、Turing では 32 です。 同時に、利用可能な Ampere 実行ユニットの半分は整数 (INT) 演算と 32 ビット浮動小数点 (FP32) 演算の両方を実行できますが、デバイスの後半は FPXNUMX 演算専用です。 このアプローチは、ゲーム負荷によって INT 動作よりもはるかに多くの FPXNUMX が生成されるという事実に基づいて、トランジスタの予算を節約するために使用されました。 しかし、チューリングには複合アクチュエータはまったくありませんでした。


NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

同時に、強化されたストリーム プロセッサに必要な量のデータを提供するために、NVIDIA は SM の L1 キャッシュのサイズを 96 分の 128 (XNUMX KB から XNUMX KB) に増加し、スループットも XNUMX 倍にしました。

Ampere のもう XNUMX つの重要な改善点は、CUDA、RT、および Tensor コアが完全に並列実行できるようになった点です。 これにより、たとえば、グラフィックス エンジンが DLSS を使用して XNUMX つのフレームをスケーリングし、同時に CUDA および RT コアで次のフレームを計算できるようになり、機能ノードのダウンタイムが削減され、全体的なパフォーマンスが向上します。

これに、Amrere で実装されている第 XNUMX 世代 RT コアは、Turing で発生した速度の XNUMX 倍の速度で三角形と光線の交差を計算できることを付け加えなければなりません。 そして、新しい第 XNUMX 世代の Tensor コアは、スパース行列を扱う際の数学的パフォーマンスを XNUMX 倍に高めました。

Ampere が三角形の交差点を計算する速度を 30 倍にすると、レイ トレーシングをサポートするゲームにおける GeForce RTX XNUMX シリーズ アクセラレータのパフォーマンスに大きな影響を与えるはずです。 NVIDIA によれば、この特性が Turing アーキテクチャのボトルネックとなったが、境界平行六面体の光線の交点の計算速度には何の不満も生じなかったという。 トレースにおけるパフォーマンスのバランスが最適化され、さらに、Ampere では両方のタイプのレイ操作 (三角形と平行六面体) を並行して実行できるようになりました。

これに加えて、三角形の位置を補間する新しい機能が Ampere の RT コアに追加されました。 これは、シーン内のすべての三角形が一定の位置にない場合に、動いているオブジェクトをぼかすために使用できます。

これらすべてを説明するために、NVIDIA は、Turing GPU と Ampere GPU が 4K 解像度の Wolfenstein Youngblood でレイ トレーシングをどのように処理するかを直接比較しました。 提示された図からわかるように、Ampere は、第 32 世代 RT コアによる高速な数学的 FPXNUMX 計算と、異種 GPU リソースの並列動作の両方により、フレーム構築速度で顕著なメリットをもたらします。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

さらに、上記の内容を実質的に補強するために、NVIDIA は GeForce RTX 3090、GeForce RTX 3080、および GeForce RTX 3070 の追加テスト結果を発表しました。それによると、GeForce RTX 3070 は 60p 解像度で GeForce RTX 2070 よりも約 1440% 優れています。この状況は、RTX サポートを備えたゲームや従来のラスタライゼーションを備えたゲーム、特にボーダーランズ 3 で観察されます。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

GeForce RTX 3080 のパフォーマンスは、2080K 解像度で GeForce RTX 4 の 3 倍です。 確かに、この場合、RTX サポートのないボーダーランズ 80 では、新しいカードの利点は XNUMX 倍ではなく、約 XNUMX% になります。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

また、NVIDIA 独自のテストでは、古いカードである GeForce RTX 3090 が Titan RTX よりも約 XNUMX 倍優れていることが示されています。

NVIDIA は、GeForce RTX 30 シリーズ アクセラレータのパフォーマンスが大幅に向上した理由を説明しました

技術ジャーナリストのレポートによると、GeForce RTX 3080 リファレンス デザインの完全なレビューは 14 月 17 日に公開される予定です。 3080日後の30月XNUMX日には、同社のパートナーからのGeForce RTX XNUMX製品モデルのテストデータの公開が許可される。 したがって、GeForce RTX XNUMX シリーズの代表者による独立したテストの結果がインターネット上に公開されるまで待つ時間はほとんどありません。

出所:



出所: 3dnews.ru

コメントを追加します