NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

NVIDIA introducerede den nye generation af Ampere gaming grafikkort den 1. september, men den indledende præsentation indeholdt næsten ingen tekniske detaljer. Nu, et par dage senere, har virksomheden frigivet dokumentation, der tydeliggør, hvor den imponerende ydeevnefordel, der adskiller GeForce RTX 30-seriens grafikkort fra sine forgængere, kommer fra.

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

Mange lagde straks mærke til, at de officielle specifikationer for GeForce RTX 3090, GeForce RTX 3080 og GeForce RTX 3070 på NVIDIAs hjemmeside indikerede et svimlende stort antal CUDA-processorer.

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

Som det viser sig, forekommer fordoblingen af ​​FP32-ydeevnen af ​​Ampere-gamingprocessorer i forhold til Turing, og det er forbundet med en ændring i arkitekturen af ​​de grundlæggende byggesten i GPU'en - stream-processorer (SM).

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

Mens SM'erne i Turing-generationens GPU'er havde én beregningsvej til floating point-operationer, modtog hver stream-processor i Ampere to stier, som i alt kan udføre op til 128 FMA-operationer pr. clock-cyklus mod 64 for Turing. Samtidig er halvdelen af ​​de tilgængelige Ampere-udførelsesenheder i stand til at udføre både heltalsoperationer (INT) og 32-bit flydende kommaoperationer (FP32), mens den anden halvdel af enhederne udelukkende er beregnet til FP32-operationer. Denne tilgang blev brugt til at spare transistorbudgettet, baseret på det faktum, at spilbelastningen genererer betydeligt mere FP32 end INT-operationer. Men i Turing var der ingen kombinerede aktuatorer overhovedet.


NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

På samme tid, for at give forbedrede stream-processorer den nødvendige mængde data, øgede NVIDIA størrelsen af ​​L1-cachen i SM med en tredjedel (fra 96 ​​til 128 KB) og fordoblede også dens gennemløb.

En anden vigtig forbedring i Ampere er, at CUDA-, RT- og Tensor-kerner nu kan køre fuldt ud parallelt. Dette gør det muligt for grafikmotoren for eksempel at bruge DLSS til at skalere en frame, og samtidig beregne den næste frame på CUDA- og RT-kerner, hvilket reducerer nedetid for funktionelle noder og øger den samlede ydeevne.

Hertil skal vi tilføje, at anden generations RT-kerner, som er implementeret i Amrere, kan beregne krydsninger af trekanter med stråler dobbelt så hurtigt, som det skete i Turing. Og de nye tredjegenerations tensorkerner har fordoblet den matematiske ydeevne, når man arbejder med sparsomme matricer.

En fordobling af hastigheden, hvormed Ampere beregner trekantskryds, burde have en væsentlig indflydelse på ydeevnen af ​​GeForce RTX 30-seriens acceleratorer i spil, der understøtter strålesporing. Ifølge NVIDIA var det denne egenskab, der fungerede som en flaskehals i Turing-arkitekturen, mens hastigheden af ​​beregninger af skæringspunkter mellem stråler af grænsende parallelepipeder ikke rejste nogen klager. Nu er balancen mellem ydeevne i sporing blevet optimeret, og desuden kan begge typer stråleoperationer i Ampere (med trekanter og parallelepipeder) udføres parallelt.

Udover dette er der tilføjet ny funktionalitet til Amperes RT-kerner for at interpolere trekanters position. Dette kan bruges til at sløre objekter i bevægelse, når ikke alle trekanter i scenen er i en konstant position.

For at illustrere alt dette viste NVIDIA en direkte sammenligning af, hvordan Turing og Ampere GPU'erne håndterer ray tracing i Wolfenstein Youngblood ved 4K opløsning. Som det følger af den præsenterede illustration, har Ampere mærkbart fordele i rammekonstruktionshastigheden både på grund af hurtigere matematiske FP32-beregninger, takket være anden generations RT-kerner, såvel som den parallelle drift af heterogene GPU-ressourcer.

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

For praktisk at forstærke ovenstående præsenterede NVIDIA yderligere testresultater for GeForce RTX 3090, GeForce RTX 3080 og GeForce RTX 3070. Ifølge dem er GeForce RTX 3070 cirka 60 % foran GeForce RTX 2070 i 1440p opløsning, og dette billede ses i spil med RTX-understøttelse og med traditionel rasterisering, især i Borderlands 3.

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

Ydeevnen for GeForce RTX 3080 er dobbelt så god som GeForce RTX 2080 ved 4K-opløsning. Sandt nok, i dette tilfælde, i Borderlands 3 uden RTX-understøttelse, er fordelen ved det nye kort ikke det dobbelte, men cirka 80 procent.

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

Og det ældre kort, GeForce RTX 3090, viser i NVIDIAs egne tests cirka halvanden gange fordel i forhold til Titan RTX.

NVIDIA forklarede, hvorfor GeForce RTX 30-seriens acceleratorer har et sådant spring i ydeevne

Ifølge rapporter fra tekniske journalister skal fulde anmeldelser af GeForce RTX 3080-referencedesignet blive offentliggjort den 14. september. Tre dage senere, den 17. september, bliver det tilladt at offentliggøre testdata for produktions GeForce RTX 3080-modeller fra virksomhedens partnere. Der er således meget lidt tid tilbage til at vente på, at resultaterne af uafhængige tests af repræsentanter for GeForce RTX 30-serien vises på internettet.

Kilde:



Kilde: 3dnews.ru

Tilføj en kommentar