NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

NVIDIA představila novou generaci herních grafických karet Ampere 1. září, ale úvodní prezentace neobsahovala téměř žádné technické detaily. Nyní, o několik dní později, společnost zveřejnila dokumentaci, která objasňuje, odkud pochází působivá výkonnostní výhoda, která odlišuje grafické karty řady GeForce RTX 30 od svých předchůdců.

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Mnozí si okamžitě všimli, že oficiální specifikace GeForce RTX 3090, GeForce RTX 3080 a GeForce RTX 3070 na webu NVIDIA naznačovaly ohromující množství procesorů CUDA.

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Jak se ukazuje, ke zdvojnásobení výkonu FP32 herních procesorů Ampere oproti Turing skutečně dochází a je spojeno se změnou architektury základních stavebních kamenů GPU – stream procesorů (SM).

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Zatímco SM v GPU generace Turing měly jednu výpočetní cestu pro operace s plovoucí desetinnou čárkou, v Ampere každý stream procesor obdržel dvě cesty, které v součtu mohou provádět až 128 FMA operací za takt oproti 64 pro Turing. Polovina dostupných prováděcích jednotek Ampere je přitom schopna provádět jak celočíselné (INT) operace, tak 32bitové operace s pohyblivou řádovou čárkou (FP32), zatímco druhá polovina zařízení je určena výhradně pro operace FP32. Tento přístup byl použit k úspoře rozpočtu tranzistoru na základě skutečnosti, že herní zátěž generuje výrazně více operací FP32 než INT. V Turingovi však nebyly vůbec žádné kombinované ovladače.


NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Aby NVIDIA poskytla vylepšeným stream procesorům potřebné množství dat, zároveň zvýšila velikost L1 cache v SM o třetinu (z 96 na 128 KB) a také zdvojnásobila její propustnost.

Dalším důležitým vylepšením v Ampere je, že jádra CUDA, RT a Tensor nyní mohou běžet plně paralelně. To umožňuje grafickému enginu například použít DLSS ke škálování jednoho snímku a zároveň vypočítat další snímek na jádrech CUDA a RT, čímž se sníží prostoje funkčních uzlů a zvýší se celkový výkon.

K tomu musíme dodat, že jádra RT druhé generace, která jsou implementována v Amrere, dokážou vypočítat průsečíky trojúhelníků s paprsky dvakrát rychleji, než tomu bylo v Turingovi. A nová tenzorová jádra třetí generace zdvojnásobila matematický výkon při práci s řídkými maticemi.

Zdvojnásobení rychlosti, s jakou Ampere počítá průsečíky trojúhelníků, by mělo mít významný dopad na výkon akcelerátorů GeForce RTX řady 30 ve hrách, které podporují sledování paprsků. Podle NVIDIA to byla právě tato charakteristika, která působila jako úzké hrdlo v architektuře Turing, přičemž rychlost výpočtů průsečíků paprsků ohraničujících rovnoběžnostěnů nevzbuzovala žádné stížnosti. Nyní byla optimalizována rovnováha výkonu při trasování a navíc v Ampere lze oba typy paprskových operací (s trojúhelníky a rovnoběžnostěny) provádět paralelně.

Kromě toho byla do jader Ampere RT přidána nová funkce pro interpolaci polohy trojúhelníků. Toho lze použít k rozmazání pohybujících se objektů, když nejsou všechny trojúhelníky ve scéně v konstantní poloze.

Pro ilustraci toho všeho NVIDIA ukázala přímé srovnání toho, jak Turing a Ampere GPU zvládají ray tracing ve Wolfenstein Youngblood v rozlišení 4K. Jak vyplývá z prezentované ilustrace, Ampere znatelně těží v rychlosti konstrukce rámu jak díky rychlejším matematickým výpočtům FP32, díky RT jádrům druhé generace, tak i paralelnímu provozu heterogenních zdrojů GPU.

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Pro praktické posílení výše uvedeného NVIDIA navíc představila další výsledky testů pro GeForce RTX 3090, GeForce RTX 3080 a GeForce RTX 3070. Podle nich je GeForce RTX 3070 přibližně o 60 % před GeForce RTX 2070 v rozlišení 1440p, a tento obrázek je pozorován ve hrách s podporou RTX a s tradiční rasterizací, zejména v Borderlands 3.

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Výkon GeForce RTX 3080 je dvakrát lepší než výkon GeForce RTX 2080 při rozlišení 4K. Pravda, v tomto případě v Borderlands 3 bez podpory RTX není výhoda nové karty dvojnásobná, ale přibližně 80procentní.

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

A starší karta, GeForce RTX 3090, ve vlastních testech NVIDIA vykazuje přibližně jedenapůlnásobnou výhodu oproti Titan RTX.

NVIDIA vysvětlila, proč mají akcelerátory řady GeForce RTX 30 takový skok ve výkonu

Podle zpráv od technických novinářů mají být úplné recenze referenčního designu GeForce RTX 3080 zveřejněny 14. září. O tři dny později, 17. září, bude umožněno zveřejnit testovací data pro produkční modely GeForce RTX 3080 od partnerů společnosti. Na čekání, až se na internetu objeví výsledky nezávislých testů zástupců řady GeForce RTX 30, tak zbývá velmi málo času.

Zdroj:



Zdroj: 3dnews.ru

Přidat komentář