NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

NVIDIA introduserte den nye generasjonen Ampere gaming-grafikkort 1. september, men den første presentasjonen inneholdt nesten ingen tekniske detaljer. Nå, noen dager senere, har selskapet gitt ut dokumentasjon som klargjør hvor den imponerende ytelsesfordelen som skiller GeForce RTX 30-seriens grafikkort fra forgjengerne kommer fra.

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

Mange la umiddelbart merke til at de offisielle spesifikasjonene til GeForce RTX 3090, GeForce RTX 3080 og GeForce RTX 3070 på NVIDIA-nettstedet indikerte et svimlende stort antall CUDA-prosessorer.

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

Som det viser seg, skjer virkelig doblingen av FP32-ytelsen til Ampere-spillprosessorer sammenlignet med Turing, og det er assosiert med en endring i arkitekturen til de grunnleggende byggesteinene til GPU-en - stream-prosessorer (SM).

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

Mens SM-ene i Turing-generasjonens GPU-er hadde én beregningsvei for flyttalloperasjoner, mottok hver strømprosessor i Ampere to baner, som totalt kan utføre opptil 128 FMA-operasjoner per klokkesyklus mot 64 for Turing. Samtidig er halvparten av de tilgjengelige Ampere-utførelsesenhetene i stand til å utføre både heltallsoperasjoner (INT) og 32-bits flytende punktoperasjoner (FP32), mens den andre halvdelen av enhetene er beregnet utelukkende for FP32-operasjoner. Denne tilnærmingen ble brukt for å spare transistorbudsjettet, basert på det faktum at spillbelastningen genererer betydelig mer FP32 enn INT-operasjoner. Men i Turing var det ingen kombinerte aktuatorer i det hele tatt.


NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

Samtidig, for å gi forbedrede strømprosessorer den nødvendige mengden data, økte NVIDIA størrelsen på L1-cachen i SM med en tredjedel (fra 96 ​​til 128 KB), og doblet også gjennomstrømmingen.

En annen viktig forbedring i Ampere er at CUDA-, RT- og Tensor-kjerner nå kan kjøre helt parallelt. Dette gjør at grafikkmotoren for eksempel kan bruke DLSS til å skalere én frame, og samtidig beregne neste frame på CUDA- og RT-kjerner, noe som reduserer nedetid for funksjonelle noder og øker den generelle ytelsen.

Til dette må vi legge til at andre generasjons RT-kjerner, som er implementert i Amrere, kan beregne skjæringer av trekanter med stråler dobbelt så raskt som det skjedde i Turing. Og de nye tredjegenerasjons tensorkjernene har doblet matematisk ytelse når du arbeider med sparsomme matriser.

En dobling av hastigheten som Ampere beregner trekantkryss med bør ha en betydelig innvirkning på ytelsen til GeForce RTX 30-seriens akseleratorer i spill som støtter strålesporing. I følge NVIDIA var det denne egenskapen som fungerte som en flaskehals i Turing-arkitekturen, mens hastigheten på beregninger av skjæringspunkter mellom stråler av grensende parallellepiped ikke ga noen klager. Nå er ytelsesbalansen i sporing optimalisert, og dessuten, i Ampere, kan begge typer stråleoperasjoner (med trekanter og parallellepipeder) utføres parallelt.

I tillegg til dette er det lagt til ny funksjonalitet til Amperes RT-kjerner for å interpolere trekantenes posisjon. Dette kan brukes til å uskarpe objekter i bevegelse når ikke alle trekanter i scenen er i konstant posisjon.

For å illustrere alt dette, viste NVIDIA en direkte sammenligning av hvordan Turing- og Ampere-GPUene håndterer strålesporing i Wolfenstein Youngblood ved 4K-oppløsning. Som det følger av den presenterte illustrasjonen, drar Ampere merkbare fordeler i rammekonstruksjonshastighet både på grunn av raskere matematiske FP32-beregninger, takket være andre generasjons RT-kjerner, samt parallell drift av heterogene GPU-ressurser.

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

I tillegg, for å praktisk talt forsterke det ovennevnte, presenterte NVIDIA ytterligere testresultater for GeForce RTX 3090, GeForce RTX 3080 og GeForce RTX 3070. Ifølge dem er GeForce RTX 3070 omtrent 60 % foran GeForce RTX 2070 i 1440p-oppløsning, og dette bildet er observert i spill med RTX-støtte, og med tradisjonell rasterisering, spesielt i Borderlands 3.

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

Ytelsen til GeForce RTX 3080 er dobbelt så god som til GeForce RTX 2080 ved 4K-oppløsning. Riktignok, i dette tilfellet, i Borderlands 3 uten RTX-støtte, er fordelen med det nye kortet ikke det dobbelte, men omtrent 80 prosent.

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

Og det eldre kortet, GeForce RTX 3090, viser i NVIDIAs egne tester omtrent en og en halv ganger fordel over Titan RTX.

NVIDIA forklarte hvorfor akseleratorer i GeForce RTX 30-serien har et slikt sprang i ytelse

I følge rapporter fra tekniske journalister, skal fullstendige anmeldelser av GeForce RTX 3080-referansedesignet publiseres 14. september. Tre dager senere, 17. september, vil det være tillatt å publisere testdata for produksjon av GeForce RTX 3080-modeller fra selskapets partnere. Dermed er det veldig lite tid igjen å vente på at resultatene av uavhengige tester av representanter for GeForce RTX 30-serien skal vises på Internett.

Kilde:



Kilde: 3dnews.ru

Legg til en kommentar