NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

NVIDIA stellte am 1. September die neue Generation der Ampere-Gaming-Grafikkarten vor, die erste Präsentation enthielt jedoch nahezu keine technischen Details. Nun, wenige Tage später, hat das Unternehmen eine Dokumentation veröffentlicht, die klarstellt, woher der beeindruckende Leistungsvorteil kommt, der die Grafikkarten der GeForce RTX 30-Serie von ihren Vorgängern unterscheidet.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Vielen ist sofort aufgefallen, dass die offiziellen Spezifikationen der GeForce RTX 3090, GeForce RTX 3080 und GeForce RTX 3070 auf der NVIDIA-Website auf eine erschreckend große Anzahl an CUDA-Prozessoren schließen lassen.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Wie sich herausstellt, kommt es tatsächlich zu einer Verdoppelung der FP32-Leistung von Ampere-Gaming-Prozessoren im Vergleich zu Turing, und sie ist mit einer Änderung der Architektur der Grundbausteine ​​der GPU – Stream-Prozessoren (SM) – verbunden.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Während die SMs in den GPUs der Turing-Generation einen Rechenpfad für Gleitkommaoperationen hatten, erhielt in Ampere jeder Stream-Prozessor zwei Pfade, die insgesamt bis zu 128 FMA-Operationen pro Taktzyklus ausführen können, gegenüber 64 bei Turing. Gleichzeitig ist die Hälfte der verfügbaren Ampere-Ausführungseinheiten in der Lage, sowohl Ganzzahloperationen (INT) als auch 32-Bit-Gleitkommaoperationen (FP32) auszuführen, während die zweite Hälfte der Geräte ausschließlich für FP32-Operationen vorgesehen ist. Dieser Ansatz wurde verwendet, um das Transistorbudget zu schonen, basierend auf der Tatsache, dass die Gaming-Last deutlich mehr FP32 erzeugt als INT-Operationen. Allerdings gab es bei Turing überhaupt keine kombinierten Aktuatoren.


NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Um verbesserte Stream-Prozessoren mit der nötigen Datenmenge zu versorgen, hat NVIDIA gleichzeitig die Größe des L1-Cache im SM um ein Drittel (von 96 auf 128 KB) erhöht und zudem den Durchsatz verdoppelt.

Eine weitere wichtige Verbesserung bei Ampere besteht darin, dass CUDA-, RT- und Tensor-Kerne jetzt vollständig parallel laufen können. Dadurch kann die Grafik-Engine beispielsweise DLSS verwenden, um einen Frame zu skalieren und gleichzeitig den nächsten Frame auf CUDA- und RT-Kernen zu berechnen, wodurch Ausfallzeiten funktionaler Knoten reduziert und die Gesamtleistung erhöht werden.

Hinzu kommt, dass die in Amrere implementierten RT-Kerne der zweiten Generation Schnittpunkte von Dreiecken mit Strahlen doppelt so schnell berechnen können wie in Turing. Und die neuen Tensorkerne der dritten Generation haben die mathematische Leistung bei der Arbeit mit dünn besetzten Matrizen verdoppelt.

Die Verdoppelung der Geschwindigkeit, mit der Ampere Dreiecksschnittpunkte berechnet, sollte erhebliche Auswirkungen auf die Leistung von Beschleunigern der GeForce RTX 30-Serie in Spielen haben, die Raytracing unterstützen. Laut NVIDIA war es diese Eigenschaft, die einen Engpass in der Turing-Architektur darstellte, während die Geschwindigkeit der Berechnungen der Schnittpunkte der Strahlen der begrenzenden Parallelepipede keine Beanstandungen hervorrief. Jetzt wurde die Leistungsbalance beim Tracing optimiert und darüber hinaus können in Ampere beide Arten von Strahloperationen (mit Dreiecken und Parallelepipeden) parallel durchgeführt werden.

Darüber hinaus wurde den RT-Kernen von Ampere eine neue Funktionalität hinzugefügt, um die Position von Dreiecken zu interpolieren. Dies kann verwendet werden, um bewegte Objekte unscharf zu machen, wenn sich nicht alle Dreiecke in der Szene in einer konstanten Position befinden.

Um dies alles zu veranschaulichen, zeigte NVIDIA einen direkten Vergleich, wie die Turing- und Ampere-GPUs mit Raytracing in Wolfenstein Youngblood bei 4K-Auflösung umgehen. Wie aus der dargestellten Abbildung hervorgeht, profitiert Ampere spürbar von der Frame-Konstruktionsgeschwindigkeit, sowohl durch schnellere mathematische FP32-Berechnungen dank der RT-Kerne der zweiten Generation als auch durch den Parallelbetrieb heterogener GPU-Ressourcen.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Um das oben Gesagte praktisch zu untermauern, präsentierte NVIDIA außerdem zusätzliche Testergebnisse für die GeForce RTX 3090, GeForce RTX 3080 und GeForce RTX 3070. Demnach liegt die GeForce RTX 3070 in der 60p-Auflösung etwa 2070 % vor der GeForce RTX 1440. und dieses Bild ist in Spielen mit RTX-Unterstützung und mit traditioneller Rasterung zu beobachten, insbesondere in Borderlands 3.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Die Leistung der GeForce RTX 3080 ist bei 2080K-Auflösung doppelt so gut wie die der GeForce RTX 4. In diesem Fall beträgt der Vorteil der neuen Karte in Borderlands 3 ohne RTX-Unterstützung jedoch nicht das Doppelte, sondern etwa 80 Prozent.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Und die ältere Karte, GeForce RTX 3090, zeigt in NVIDIAs eigenen Tests etwa einen eineinhalbfachen Vorsprung gegenüber der Titan RTX.

NVIDIA erklärte, warum Beschleuniger der GeForce RTX 30-Serie einen solchen Leistungssprung aufweisen

Laut Berichten von Technikjournalisten sollen am 3080. September vollständige Testberichte zum Referenzdesign der GeForce RTX 14 veröffentlicht werden. Drei Tage später, am 17. September, dürfen Testdaten für Serienmodelle der GeForce RTX 3080 von Partnern des Unternehmens veröffentlicht werden. Es bleibt also nur noch wenig Zeit, bis die Ergebnisse unabhängiger Tests von Vertretern der GeForce RTX 30-Serie im Internet erscheinen.

Source:



Source: 3dnews.ru

Kommentar hinzufügen