NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

NVIDIA introducerade den nya generationen Ampere spelgrafikkort den 1 september, men den första presentationen innehöll nästan inga tekniska detaljer. Nu, några dagar senare, har företaget släppt dokumentation som klargör varifrån den imponerande prestandafördelen som skiljer GeForce RTX 30-seriens grafikkort från sina föregångare kommer ifrån.

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Många märkte omedelbart att de officiella specifikationerna för GeForce RTX 3090, GeForce RTX 3080 och GeForce RTX 3070 på NVIDIA-webbplatsen indikerade ett förbluffande stort antal CUDA-processorer.

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Det visar sig att fördubblingen av FP32-prestanda för Ampere-spelprocessorer jämfört med Turing verkligen inträffar, och det är förknippat med en förändring i arkitekturen för de grundläggande byggstenarna i GPU:n - stream-processorer (SM).

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Medan SM:erna i Turing-generationens GPU:er hade en beräkningsväg för flyttalsoperationer, fick varje strömprocessor i Ampere två vägar, som totalt kan utföra upp till 128 FMA-operationer per klockcykel jämfört med 64 för Turing. Samtidigt är hälften av de tillgängliga Ampere-exekveringsenheterna kapabla att utföra både heltalsoperationer (INT) och 32-bitars flyttalsoperationer (FP32), medan den andra hälften av enheterna är avsedda exklusivt för FP32-operationer. Detta tillvägagångssätt användes för att spara transistorbudgeten, baserat på det faktum att spelbelastningen genererar betydligt mer FP32 än INT-operationer. Men i Turing fanns det inga kombinerade ställdon alls.


NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Samtidigt, för att förse förbättrade strömprocessorer med den nödvändiga mängden data, ökade NVIDIA storleken på L1-cachen i SM med en tredjedel (från 96 till 128 KB) och fördubblade också dess genomströmning.

En annan viktig förbättring i Ampere är att CUDA-, RT- och Tensor-kärnor nu kan köras helt parallellt. Detta gör att grafikmotorn till exempel kan använda DLSS för att skala en bildruta, och samtidigt beräkna nästa bildruta på CUDA- och RT-kärnor, vilket minskar stilleståndstiden för funktionella noder och ökar den totala prestandan.

Till detta måste vi lägga till att andra generationens RT-kärnor, som är implementerade i Amrere, kan beräkna skärningspunkter mellan trianglar med strålar dubbelt så snabbt som det hände i Turing. Och den nya tredje generationens tensorkärnor har fördubblat matematisk prestanda när man arbetar med glesa matriser.

En fördubbling av hastigheten med vilken Ampere beräknar triangelkorsningar borde ha en betydande inverkan på prestandan hos GeForce RTX 30-seriens acceleratorer i spel som stöder strålspårning. Enligt NVIDIA var det denna egenskap som fungerade som en flaskhals i Turing-arkitekturen, medan hastigheten för beräkningar av skärningspunkter för strålar av gränsande parallellepiped inte väckte några klagomål. Nu har balansen mellan prestanda vid spårning optimerats, och dessutom kan båda typerna av stråloperationer (med trianglar och parallellepiped) i Ampere utföras parallellt.

Utöver detta har ny funktionalitet lagts till Amperes RT-kärnor för att interpolera trianglarnas position. Detta kan användas för att sudda ut objekt i rörelse när inte alla trianglar i scenen är i en konstant position.

För att illustrera allt detta visade NVIDIA en direkt jämförelse av hur Turing och Ampere GPU:erna hanterar strålspårning i Wolfenstein Youngblood i 4K-upplösning. Som följer av den presenterade illustrationen, drar Ampere märkbart fördelar i ramkonstruktionshastighet både på grund av snabbare matematiska FP32-beräkningar, tack vare andra generationens RT-kärnor, såväl som den parallella driften av heterogena GPU-resurser.

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Dessutom, för att praktiskt förstärka ovanstående, presenterade NVIDIA ytterligare testresultat för GeForce RTX 3090, GeForce RTX 3080 och GeForce RTX 3070. Enligt dem är GeForce RTX 3070 ungefär 60 % före GeForce RTX 2070 i 1440p-upplösning, och den här bilden observeras i spel med RTX-stöd och med traditionell rastrering, särskilt i Borderlands 3.

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Prestandan hos GeForce RTX 3080 är dubbelt så bra som hos GeForce RTX 2080 vid 4K-upplösning. Det är sant att i det här fallet, i Borderlands 3 utan RTX-stöd, är fördelen med det nya kortet inte dubbelt, utan ungefär 80 procent.

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Och det äldre kortet, GeForce RTX 3090, visar i NVIDIAs egna tester ungefär en och en halv gångers fördel gentemot Titan RTX.

NVIDIA förklarade varför GeForce RTX 30-seriens acceleratorer har ett sådant språng i prestanda

Enligt rapporter från tekniska journalister kommer fullständiga recensioner av GeForce RTX 3080-referensdesignen att publiceras den 14 september. Tre dagar senare, den 17 september, kommer det att vara tillåtet att publicera testdata för produktionen av GeForce RTX 3080-modeller från företagets partners. Det finns alltså väldigt lite tid kvar att vänta på att resultaten av oberoende tester av representanter för GeForce RTX 30-serien ska dyka upp på Internet.

Källa:



Källa: 3dnews.ru

Lägg en kommentar