NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

NVIDIA prezantoi gjeneratën e re të kartave grafike të lojërave Ampere më 1 shtator, por prezantimi fillestar nuk përmbante pothuajse asnjë detaj teknik. Tani, disa ditë më vonë, kompania ka publikuar dokumentacionin që sqaron se nga vjen avantazhi mbresëlënës i performancës që i veçon kartat grafike të serisë GeForce RTX 30 nga paraardhësit e saj.

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Shumë vunë re menjëherë se specifikimet zyrtare të GeForce RTX 3090, GeForce RTX 3080 dhe GeForce RTX 3070 në faqen e internetit NVIDIA treguan një numër jashtëzakonisht të madh të procesorëve CUDA.

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Siç rezulton, dyfishimi i performancës FP32 të procesorëve të lojërave Ampere në krahasim me Turing ndodh me të vërtetë dhe shoqërohet me një ndryshim në arkitekturën e blloqeve bazë të ndërtimit të procesorëve GPU - stream (SM).

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Ndërsa SM-të në GPU-të e gjeneratës Turing kishin një shteg llogaritës për operacionet me pikë lundruese, në Amper, çdo procesor i rrjedhës mori dy shtigje, të cilat në total mund të kryejnë deri në 128 operacione FMA për cikël orësh kundrejt 64 për Turing. Në të njëjtën kohë, gjysma e njësive të disponueshme të ekzekutimit të Amperit janë të afta të kryejnë operacione me numra të plotë (INT) dhe operacione me pikë lundruese 32-bit (FP32), ndërsa gjysma e dytë e pajisjeve janë të destinuara ekskluzivisht për operacionet FP32. Kjo qasje u përdor për të kursyer buxhetin e transistorit, bazuar në faktin se ngarkesa e lojërave gjeneron dukshëm më shumë FP32 sesa operacionet INT. Sidoqoftë, në Turing nuk kishte fare aktivizues të kombinuar.


NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Në të njëjtën kohë, për të siguruar procesorë të përmirësuar të rrjedhës me sasinë e nevojshme të të dhënave, NVIDIA rriti madhësinë e cache L1 në SM me një të tretën (nga 96 në 128 KB), dhe gjithashtu dyfishoi xhiron e saj.

Një përmirësim tjetër i rëndësishëm në Ampere është se bërthamat CUDA, RT dhe Tensor tani mund të funksionojnë plotësisht paralelisht. Kjo i lejon motorit grafik, për shembull, të përdorë DLSS për të shkallëzuar një kornizë, dhe në të njëjtën kohë të llogarisë kuadrin tjetër në bërthamat CUDA dhe RT, duke reduktuar kohën e ndërprerjes së nyjeve funksionale dhe duke rritur performancën e përgjithshme.

Kësaj duhet të shtojmë se bërthamat e gjeneratës së dytë RT, të cilat janë implementuar në Amrere, mund të llogarisin kryqëzimet e trekëndëshave me rrezet dy herë më shpejt se sa ndodhi në Turing. Dhe bërthamat e reja tensore të gjeneratës së tretë kanë dyfishuar performancën matematikore kur punojnë me matrica të rralla.

Dyfishimi i shpejtësisë me të cilën Ampere llogarit kryqëzimet e trekëndëshave duhet të ketë një ndikim të rëndësishëm në performancën e përshpejtuesve të serisë GeForce RTX 30 në lojërat që mbështesin gjurmimin e rrezeve. Sipas NVIDIA, ishte kjo karakteristikë që veproi si një pengesë në arkitekturën Turing, ndërsa shpejtësia e llogaritjeve të kryqëzimeve të rrezeve të paralelepipedëve kufizues nuk ngriti asnjë ankesë. Tani bilanci i performancës në gjurmim është optimizuar, dhe për më tepër, në Amper, të dy llojet e operacioneve me rreze (me trekëndësha dhe paralelopipedë) mund të kryhen paralelisht.

Përveç kësaj, funksionaliteti i ri është shtuar në bërthamat RT të Ampere për të interpoluar pozicionin e trekëndëshave. Kjo mund të përdoret për të turbulluar objektet në lëvizje kur jo të gjithë trekëndëshat në skenë janë në një pozicion konstant.

Për të ilustruar të gjitha këto, NVIDIA tregoi një krahasim të drejtpërdrejtë se si GPU-të Turing dhe Ampere trajtojnë gjurmimin e rrezeve në Wolfenstein Youngblood në rezolucion 4K. Siç vijon nga ilustrimi i paraqitur, Ampere përfiton dukshëm në shpejtësinë e ndërtimit të kornizës si për shkak të llogaritjeve më të shpejta matematikore FP32, falë bërthamave të gjeneratës së dytë RT, si dhe funksionimit paralel të burimeve heterogjene të GPU.

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Përveç kësaj, për të përforcuar praktikisht sa më sipër, NVIDIA prezantoi rezultate shtesë të testit për GeForce RTX 3090, GeForce RTX 3080 dhe GeForce RTX 3070. Sipas tyre, GeForce RTX 3070 është afërsisht 60% përpara se GeForce RTX 2070 në rezolucionin dhe kjo pamje vërehet në lojërat me mbështetje RTX, dhe me rasterizimin tradicional, veçanërisht në Borderlands 1440.

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Performanca e GeForce RTX 3080 është dy herë më e mirë se ajo e GeForce RTX 2080 në rezolucion 4K. Vërtetë, në këtë rast, në Borderlands 3 pa mbështetje RTX, avantazhi i kartës së re nuk është i dyfishtë, por afërsisht 80 përqind.

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Dhe karta më e vjetër, GeForce RTX 3090, në testet e vetë NVIDIA tregon një avantazh afërsisht një herë e gjysmë mbi Titan RTX.

NVIDIA shpjegoi pse përshpejtuesit e serisë GeForce RTX 30 kanë një hap të tillë në performancë

Sipas raporteve nga gazetarët e teknologjisë, rishikimet e plota të modelit të referencës GeForce RTX 3080 do të publikohen më 14 shtator. Tre ditë më vonë, më 17 shtator, do të lejohet publikimi i të dhënave të testimit për modelet e prodhimit GeForce RTX 3080 nga partnerët e kompanisë. Kështu, ka mbetur shumë pak kohë për të pritur që rezultatet e testeve të pavarura të përfaqësuesve të serisë GeForce RTX 30 të shfaqen në internet.

Burimi:



Burimi: 3dnews.ru

Shto një koment