NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

NVIDIA wprowadziła nową generację gamingowych kart graficznych Ampere 1 września, jednak początkowa prezentacja nie zawierała prawie żadnych szczegółów technicznych. Teraz, kilka dni później, firma opublikowała dokumentację wyjaśniającą, skąd bierze się imponująca przewaga wydajności, która odróżnia karty graficzne GeForce RTX z serii 30 od swoich poprzedników.

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Wielu od razu zauważyło, że oficjalne specyfikacje GeForce RTX 3090, GeForce RTX 3080 i GeForce RTX 3070 na stronie NVIDIA wskazywały na zawrotnie dużą liczbę procesorów CUDA.

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Jak się okazuje, podwojenie wydajności FP32 gamingowych procesorów Ampere w porównaniu do Turinga rzeczywiście następuje i wiąże się ze zmianą architektury podstawowych elementów składowych GPU – procesorów strumieniowych (SM).

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Podczas gdy moduły SM w procesorach graficznych generacji Turing miały jedną ścieżkę obliczeniową dla operacji zmiennoprzecinkowych, w Ampere każdy procesor strumieniowy otrzymał dwie ścieżki, które łącznie mogą wykonać do 128 operacji FMA na cykl zegara w porównaniu z 64 w przypadku Turinga. Jednocześnie połowa dostępnych jednostek wykonawczych Ampere jest w stanie wykonywać zarówno operacje na liczbach całkowitych (INT), jak i 32-bitowych operacjach zmiennoprzecinkowych (FP32), natomiast druga połowa urządzeń jest przeznaczona wyłącznie do operacji FP32. Zastosowano takie podejście, aby zaoszczędzić budżet tranzystora, bazując na fakcie, że obciążenie gier generuje znacznie więcej FP32 niż operacji INT. Jednak w Turingu w ogóle nie było połączonych siłowników.


NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Jednocześnie, aby zapewnić zaawansowanym procesorom strumieniowym niezbędną ilość danych, NVIDIA zwiększyła o jedną trzecią rozmiar pamięci podręcznej L1 w SM (z 96 do 128 KB), a także podwoiła jej przepustowość.

Kolejnym ważnym ulepszeniem w Ampere jest to, że rdzenie CUDA, RT i Tensor mogą teraz działać w pełni równolegle. Dzięki temu silnik graficzny może na przykład używać DLSS do skalowania jednej klatki i jednocześnie obliczania kolejnej klatki na rdzeniach CUDA i RT, redukując przestoje węzłów funkcjonalnych i zwiększając ogólną wydajność.

Do tego trzeba dodać, że rdzenie RT drugiej generacji, które zaimplementowano w Amrere, potrafią obliczać przecięcia trójkątów z promieniami dwa razy szybciej niż miało to miejsce w Turingu. Nowe rdzenie tensorowe trzeciej generacji podwoiły wydajność matematyczną podczas pracy z rzadkimi macierzami.

Podwojenie szybkości, z jaką Ampere oblicza przecięcia trójkątów, powinno mieć znaczący wpływ na wydajność akceleratorów GeForce RTX z serii 30 w grach obsługujących ray tracing. Według NVIDII to właśnie ta cecha działała jak wąskie gardło w architekturze Turinga, natomiast szybkość obliczeń przecięć promieni ograniczających równoległościanów nie budziła żadnych zastrzeżeń. Teraz zoptymalizowano równowagę wydajności w śledzeniu, a ponadto w Ampere oba rodzaje operacji na promieniach (na trójkątach i równoległościanach) można wykonywać równolegle.

Oprócz tego do rdzeni RT Ampere dodano nową funkcjonalność polegającą na interpolacji położenia trójkątów. Można tego użyć do rozmycia obiektów w ruchu, gdy nie wszystkie trójkąty w scenie znajdują się w stałym położeniu.

Aby to wszystko zilustrować, NVIDIA pokazała bezpośrednie porównanie sposobu, w jaki procesory graficzne Turing i Ampere radzą sobie ze śledzeniem promieni w grze Wolfenstein Youngblood w rozdzielczości 4K. Jak wynika z przedstawionej ilustracji, Ampere zauważalnie zyskuje na szybkości konstrukcji ram zarówno dzięki szybszym obliczeniom matematycznym FP32, dzięki rdzeniom RT drugiej generacji, jak i równoległej pracy heterogenicznych zasobów GPU.

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Dodatkowo, aby praktycznie utwierdzić powyższe, NVIDIA zaprezentowała dodatkowe wyniki testów kart GeForce RTX 3090, GeForce RTX 3080 i GeForce RTX 3070. Według nich GeForce RTX 3070 wyprzedza GeForce RTX 60 o około 2070% w rozdzielczości 1440p, i taki obraz można zaobserwować w grach z obsługą RTX i przy tradycyjnej rasteryzacji, szczególnie w Borderlands 3.

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Wydajność GeForce RTX 3080 jest dwukrotnie lepsza niż GeForce RTX 2080 w rozdzielczości 4K. Co prawda w tym przypadku w Borderlands 3 bez obsługi RTX przewaga nowej karty nie jest podwójna, ale około 80 procent.

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Natomiast starsza karta, GeForce RTX 3090, we własnych testach NVIDII wykazuje około półtorakrotną przewagę nad Titan RTX.

NVIDIA wyjaśniła, dlaczego akceleratory z serii GeForce RTX 30 charakteryzują się tak dużym skokiem wydajności

Według doniesień dziennikarzy technicznych pełne recenzje referencyjnej konstrukcji GeForce RTX 3080 mają zostać opublikowane 14 września. Trzy dni później, 17 września, możliwe będzie opublikowanie danych testowych produkcyjnych modeli GeForce RTX 3080 od partnerów firmy. Tym samym czasu na pojawienie się w Internecie wyników niezależnych testów przedstawicieli serii GeForce RTX 30 pozostało już bardzo niewiele.

Źródło:



Źródło: 3dnews.ru

Dodaj komentarz