NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

NVIDIA introduceerde op 1 september de nieuwe generatie Ampere gaming grafische kaarten, maar de eerste presentatie bevatte vrijwel geen technische details. Nu, een paar dagen later, heeft het bedrijf documentatie vrijgegeven die duidelijk maakt waar het indrukwekkende prestatievoordeel vandaan komt dat de grafische kaarten uit de GeForce RTX 30-serie onderscheidt van zijn voorgangers.

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

Velen merkten meteen dat de officiële specificaties van de GeForce RTX 3090, GeForce RTX 3080 en GeForce RTX 3070 op de NVIDIA-website een duizelingwekkend groot aantal CUDA-processors aangaven.

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

Het blijkt dat de verdubbeling van de FP32-prestaties van Ampere-gamingprocessors in vergelijking met Turing inderdaad plaatsvindt, en dat dit gepaard gaat met een verandering in de architectuur van de basisbouwstenen van de GPU-streamprocessors (SM).

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

Terwijl de SM's in de GPU's van de Turing-generatie één rekenpad hadden voor drijvende-kommabewerkingen, ontving elke stroomprocessor in Ampere twee paden, die in totaal tot 128 FMA-bewerkingen per klokcyclus kunnen uitvoeren, tegenover 64 voor Turing. Tegelijkertijd kan de helft van de beschikbare Ampere-uitvoeringseenheden zowel integer- (INT)-bewerkingen als 32-bit floating point-bewerkingen (FP32) uitvoeren, terwijl de tweede helft van de apparaten uitsluitend bedoeld is voor FP32-bewerkingen. Deze aanpak werd gebruikt om het transistorbudget te besparen, gebaseerd op het feit dat de gamingbelasting aanzienlijk meer FP32-bewerkingen genereert dan INT-bewerkingen. In Turing waren er echter helemaal geen gecombineerde actuatoren.


NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

Tegelijkertijd heeft NVIDIA, om verbeterde streamprocessors van de nodige hoeveelheid gegevens te voorzien, de grootte van de L1-cache in SM met een derde vergroot (van 96 naar 128 KB) en ook de doorvoer verdubbeld.

Een andere belangrijke verbetering in Ampere is dat CUDA-, RT- en Tensor-kernen nu volledig parallel kunnen werken. Hierdoor kan de grafische engine bijvoorbeeld DLSS gebruiken om één frame te schalen en tegelijkertijd het volgende frame op CUDA- en RT-cores te berekenen, waardoor de downtime van functionele knooppunten wordt verminderd en de algehele prestaties worden verbeterd.

Hieraan moeten we toevoegen dat de tweede generatie RT-kernen, die in Amrere zijn geïmplementeerd, snijpunten van driehoeken met stralen twee keer zo snel kunnen berekenen als in Turing. En de nieuwe tensorkernen van de derde generatie hebben de wiskundige prestaties verdubbeld bij het werken met dunne matrices.

Het verdubbelen van de snelheid waarmee Ampere driehoekskruisingen berekent, zou een aanzienlijke impact moeten hebben op de prestaties van accelerators uit de GeForce RTX 30-serie in games die ray tracing ondersteunen. Volgens NVIDIA was het dit kenmerk dat als een knelpunt fungeerde in de Turing-architectuur, terwijl de snelheid van de berekeningen van de snijpunten van stralen van begrenzende parallellepipedums geen klachten opleverde. Nu is de prestatiebalans bij het traceren geoptimaliseerd en bovendien kunnen in Ampere beide soorten straalbewerkingen (met driehoeken en parallellepipedums) parallel worden uitgevoerd.

Daarnaast is er nieuwe functionaliteit toegevoegd aan de RT-kernen van Ampere om de positie van driehoeken te interpoleren. Dit kan worden gebruikt om bewegende objecten onscherp te maken wanneer niet alle driehoeken in de scène zich in een constante positie bevinden.

Om dit alles te illustreren liet NVIDIA een directe vergelijking zien van hoe de Turing- en Ampere GPU's omgaan met ray tracing in Wolfenstein Youngblood met een resolutie van 4K. Zoals uit de gepresenteerde illustratie blijkt, profiteert Ampere merkbaar van de frameconstructiesnelheid, zowel dankzij snellere wiskundige FP32-berekeningen, dankzij de tweede generatie RT-kernen, als door de parallelle werking van heterogene GPU-bronnen.

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

Om het bovenstaande praktisch te versterken, presenteerde NVIDIA aanvullende testresultaten voor de GeForce RTX 3090, GeForce RTX 3080 en GeForce RTX 3070. Volgens hen ligt de GeForce RTX 3070 ongeveer 60% voor op de GeForce RTX 2070 in 1440p-resolutie, en dit beeld wordt waargenomen in games met RTX-ondersteuning, en met traditionele rasterisatie, vooral in Borderlands 3.

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

De prestaties van de GeForce RTX 3080 zijn twee keer zo goed als die van de GeForce RTX 2080 bij 4K resolutie. Toegegeven, in dit geval is het voordeel van de nieuwe kaart in Borderlands 3 zonder RTX-ondersteuning niet het dubbele, maar ongeveer 80 procent.

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

En de oudere kaart, GeForce RTX 3090, laat in NVIDIA's eigen tests een voordeel van ongeveer anderhalf keer zien ten opzichte van de Titan RTX.

NVIDIA legde uit waarom accelerators uit de GeForce RTX 30-serie zo'n sprong in prestatie maken

Volgens rapporten van technologiejournalisten zullen de volledige recensies van het GeForce RTX 3080-referentieontwerp op 14 september worden gepubliceerd. Drie dagen later, op 17 september, mag het testgegevens publiceren voor productie-GeForce RTX 3080-modellen van de partners van het bedrijf. Er is dus nog heel weinig tijd om te wachten tot de resultaten van onafhankelijke tests van vertegenwoordigers van de GeForce RTX 30-serie op internet verschijnen.

Bron:



Bron: 3dnews.ru

Voeg een reactie