Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Az NVIDIA szeptember 1-jén mutatta be az Ampere gamer grafikus kártyák új generációját, de a kezdeti bemutató szinte semmilyen technikai részletet nem tartalmazott. Most, néhány nappal később a vállalat közzétette a dokumentációt, amely tisztázza, honnan ered az a lenyűgöző teljesítményelőny, amely a GeForce RTX 30-as sorozatú grafikus kártyákat megkülönbözteti elődeitől.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Sokan azonnal észrevették, hogy a GeForce RTX 3090, GeForce RTX 3080 és GeForce RTX 3070 hivatalos specifikációi az NVIDIA honlapján elképesztően nagy számú CUDA processzort jeleztek.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Mint kiderült, az Ampere játékprocesszorok FP32 teljesítményének megduplázódása a Turinghoz képest valóban megtörténik, és ez a GPU - stream processzorok (SM) alapvető építőelemeinek architektúrájának megváltozásával függ össze.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Míg a Turing-generációs GPU-k SM-jei egy számítási útvonallal rendelkeztek a lebegőpontos műveletekhez, addig Amperben minden adatfolyam-processzor két útvonalat kapott, amelyek összesen 128 FMA-műveletet tud végrehajtani órajelenként, szemben a Turing 64-gyel. Ugyanakkor a rendelkezésre álló Ampere végrehajtó egységek fele egész szám (INT) és 32 bites lebegőpontos (FP32) műveletek végrehajtására is alkalmas, míg az eszközök második fele kizárólag az FP32 műveletekre szolgál. Ezt a megközelítést a tranzisztor költségvetésének megtakarítására használták, mivel a játékterhelés lényegesen több FP32-t generál, mint az INT műveleteket. Turingban azonban egyáltalán nem voltak kombinált működtetők.


Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Ugyanakkor annak érdekében, hogy a továbbfejlesztett adatfolyam-processzorokat ellássák a szükséges adatmennyiséggel, az NVIDIA harmadára növelte az SM L1 gyorsítótárának méretét (96-ról 128 KB-ra), és megduplázta az átviteli sebességet is.

Az Ampere másik fontos fejlesztése, hogy a CUDA, RT és Tensor magok már teljesen párhuzamosan futhatnak. Ez lehetővé teszi például a grafikus motor számára, hogy DLSS-t használjon egy képkocka átméretezésére, ugyanakkor a következő képkocka kiszámítására a CUDA és RT magokon, csökkentve a funkcionális csomópontok leállási idejét és növelve az általános teljesítményt.

Ehhez hozzá kell tenni, hogy az Amrere-ben megvalósított második generációs RT magok kétszer olyan gyorsan tudják kiszámítani a háromszögek sugarak metszéspontját, mint a Turingban. Az új, harmadik generációs tenzormagok pedig megduplázták a matematikai teljesítményt a ritka mátrixokkal való munka során.

Az Ampere háromszög metszéspontjainak kiszámítási sebességének megduplázása jelentős hatással lesz a GeForce RTX 30-as sorozatú gyorsítók teljesítményére a sugárkövetést támogató játékokban. Az NVIDIA szerint ez a jellemző volt a szűk keresztmetszet a Turing-architektúrában, míg a határoló paralelepipedonok sugarainak metszéspontjainak számítási sebessége nem okozott panaszt. Most optimalizálták a teljesítmény egyensúlyát a nyomkövetésben, ráadásul az Amperben mindkét típusú sugárművelet (háromszögekkel és paralelepipedonokkal) párhuzamosan is végrehajtható.

Ezen túlmenően az Ampere RT magjai új funkciókkal bővültek a háromszögek helyzetének interpolálására. Ez használható a mozgó objektumok elmosására, ha a jelenetben nincs minden háromszög állandó helyzetben.

Mindezek illusztrálására az NVIDIA közvetlen összehasonlítást mutatott be azzal kapcsolatban, hogy a Turing és az Ampere GPU hogyan kezeli a sugárkövetést a Wolfenstein Youngbloodban 4K felbontásban. Amint az a bemutatott ábrából következik, az Ampere érezhetően profitál a keretépítés sebességéből, mind a gyorsabb matematikai FP32 számításoknak köszönhetően, a második generációs RT magoknak köszönhetően, mind pedig a heterogén GPU-erőforrások párhuzamos működésének köszönhetően.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Emellett a fentiek gyakorlati megerősítése érdekében az NVIDIA további teszteredményeket mutatott be a GeForce RTX 3090, GeForce RTX 3080 és GeForce RTX 3070 esetében. Ezek szerint a GeForce RTX 3070 megközelítőleg 60%-kal előzi meg a GeForce RTX 2070-et 1440p felbontásban. és ez a kép figyelhető meg az RTX támogatással és a hagyományos raszterezéssel rendelkező játékokban, különösen a Borderlands 3-ban.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

A GeForce RTX 3080 teljesítménye kétszer olyan jó, mint a GeForce RTX 2080 4K felbontásban. Igaz, ebben az esetben az RTX-támogatás nélküli Borderlands 3-ban nem dupla, hanem megközelítőleg 80 százalékos az új kártya előnye.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

A régebbi kártya, a GeForce RTX 3090 pedig az NVIDIA saját tesztjeiben körülbelül másfélszeres előnyt mutat a Titan RTX-hez képest.

Az NVIDIA elmagyarázta, hogy miért van ekkora teljesítményugrás a GeForce RTX 30 sorozatú gyorsítóknál

Technikai újságírók jelentései szerint a GeForce RTX 3080 referenciatervezésről szóló teljes áttekintés szeptember 14-én jelenik meg. Három nappal később, szeptember 17-én engedélyezik a cég partnerei által gyártott GeForce RTX 3080 modellek tesztadatainak közzétételét. Így már nagyon kevés idő van arra várni, hogy a GeForce RTX 30 sorozat képviselőinek független tesztjeinek eredményei megjelenjenek az interneten.

Forrás:



Forrás: 3dnews.ru

Hozzászólás