NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

NVIDIA va presentar la nova generació de targetes gràfiques per a jocs Ampere l'1 de setembre, però la presentació inicial gairebé no contenia detalls tècnics. Ara, uns dies després, la companyia ha publicat documentació que aclareix d'on prové l'impressionant avantatge de rendiment que diferencia les targetes gràfiques GeForce RTX de la sèrie 30 de les seves predecessores.

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

Molts es van adonar immediatament que les especificacions oficials de la GeForce RTX 3090, GeForce RTX 3080 i GeForce RTX 3070 al lloc web de NVIDIA indicaven un nombre sorprenentment gran de processadors CUDA.

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

Com a resultat, la duplicació del rendiment FP32 dels processadors de jocs Ampere en comparació amb Turing es produeix, i està associat a un canvi en l'arquitectura dels blocs bàsics de la GPU: processadors de flux (SM).

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

Mentre que els SM de les GPU de la generació Turing tenien un camí computacional per a operacions de punt flotant, en Ampere cada processador de flux va rebre dos camins, que en total poden realitzar fins a 128 operacions FMA per cicle de rellotge enfront de 64 per a Turing. Al mateix temps, la meitat de les unitats d'execució Ampere disponibles són capaços de realitzar tant operacions senceres (INT) com operacions de coma flotant de 32 bits (FP32), mentre que la segona meitat dels dispositius estan destinades exclusivament a operacions FP32. Aquest enfocament es va utilitzar per estalviar el pressupost del transistor, basant-se en el fet que la càrrega de joc genera molt més FP32 que les operacions INT. Tanmateix, a Turing no hi havia actuadors combinats.


NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

Al mateix temps, per tal de proporcionar als processadors de flux millorats la quantitat de dades necessària, NVIDIA va augmentar la mida de la memòria cau L1 a SM en un terç (de 96 a 128 KB) i també va duplicar el seu rendiment.

Una altra millora important a Ampere és que els nuclis CUDA, RT i Tensor ara poden funcionar completament en paral·lel. Això permet que el motor gràfic, per exemple, utilitzi DLSS per escalar un fotograma i, al mateix temps, calculi el següent fotograma als nuclis CUDA i RT, reduint el temps d'inactivitat dels nodes funcionals i augmentant el rendiment general.

A això cal afegir que els nuclis RT de segona generació, que estan implementats a Amrere, poden calcular interseccions de triangles amb raigs dues vegades més ràpid que a Turing. I els nous nuclis tensoris de tercera generació han duplicat el rendiment matemàtic quan es treballa amb matrius escasses.

Doblar la velocitat a la qual Ampere calcula les interseccions de triangles hauria de tenir un impacte significatiu en el rendiment dels acceleradors de la sèrie GeForce RTX 30 en jocs que admeten el traçat de raigs. Segons NVIDIA, va ser aquesta característica la que va actuar com un coll d'ampolla en l'arquitectura de Turing, mentre que la velocitat de càlcul de les interseccions de raigs de paral·lelepípedes delimitants no va plantejar cap queixa. Ara s'ha optimitzat l'equilibri de rendiment en el traçat i, a més, a Ampere, ambdós tipus d'operacions de raigs (amb triangles i paral·lelepípedes) es poden realitzar en paral·lel.

A més d'això, s'ha afegit una nova funcionalitat als nuclis RT d'Ampere per interpolar la posició dels triangles. Això es pot utilitzar per difuminar objectes en moviment quan no tots els triangles de l'escena estan en una posició constant.

Per il·lustrar tot això, NVIDIA va mostrar una comparació directa de com les GPU Turing i Ampere gestionen el traçat de raigs a Wolfenstein Youngblood amb una resolució de 4K. Com es desprèn de la il·lustració presentada, Ampere es beneficia notablement de la velocitat de construcció del marc tant a causa dels càlculs matemàtics FP32 més ràpids, gràcies als nuclis RT de segona generació, com al funcionament paral·lel de recursos GPU heterogenis.

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

A més, per reforçar pràcticament l'anterior, NVIDIA va presentar resultats de proves addicionals per a la GeForce RTX 3090, GeForce RTX 3080 i GeForce RTX 3070. Segons ells, la GeForce RTX 3070 està aproximadament un 60% per davant de la GeForce RTX 2070 en resolució 1440p, i aquesta imatge s'observa en jocs amb suport RTX i amb rasterització tradicional, en particular a Borderlands 3.

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

El rendiment de la GeForce RTX 3080 és el doble que el de la GeForce RTX 2080 amb una resolució de 4K. És cert que en aquest cas, a Borderlands 3 sense suport RTX, l'avantatge de la nova targeta no és el doble, sinó aproximadament el 80 per cent.

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

I la targeta més antiga, GeForce RTX 3090, en les proves pròpies de NVIDIA mostra aproximadament un avantatge d'una vegada i mitja respecte al Titan RTX.

NVIDIA va explicar per què els acceleradors de la sèrie GeForce RTX 30 tenen aquest salt de rendiment

Segons informes de periodistes tecnològics, les ressenyes completes del disseny de referència de GeForce RTX 3080 es publicaran el 14 de setembre. Tres dies després, el 17 de setembre, es permetrà publicar dades de prova per als models de producció GeForce RTX 3080 dels socis de la companyia. Així, queda molt poc temps per esperar que els resultats de les proves independents dels representants de la sèrie GeForce RTX 30 apareguin a Internet.

Font:



Font: 3dnews.ru

Afegeix comentari