NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

NVIDIA прадставіла новае пакаленне гульнявых відэакарт Ampere 1 верасня, аднак першапачатковая прэзентацыя амаль не ўтрымоўвала тэхнічных падрабязнасцяў. Цяпер, праз некалькі дзён, кампанія апублікавала дакументацыю, якая растлумачвае, адкуль бярэцца тая ўражлівая перавага ў прадукцыйнасці, якім вылучаюцца на фоне папярэднікаў відэакарткі GeForce RTX 30-й серыі.

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

Многія адразу звярнулі ўвагу, што ў афіцыйных характарыстыках GeForce RTX 3090, GeForce RTX 3080 і GeForce RTX 3070 на сайце NVIDIA было паказана ашаламляльна вялікі лік CUDA-працэсараў.

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

Як аказалася, падваенне FP32-прадукцыйнасці гульнявых працэсараў Ampere у параўнанні з Turing сапраўды мае месца, і звязана яно са змяненнем архітэктуры базавых будаўнічых блокаў GPU - струменевых працэсараў (SM).

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

У той час як SM у GPU пакалення Turing мелі адзін вылічальны тракт для аперацый з якая плавае кропкай, у Ampere кожны струменевы працэсар атрымаў па двух гасцінца, якія ў суме могуць выканаць да 128 FMA-аперацый за такт супраць 64 у Turing. Пры гэтым палова з наяўных выканаўчых прылад Ampere здольная выконваць як цэлалікавыя (INT) аперацыі, так і 32-бітныя аперацыі з якая плавае кропкай (FP32), у той час як другая палова прылад прызначана выключна для FP32-аперацый. Такі падыход ужыты дзеля эканоміі транзістарнага бюджэту, зыходзячы з таго, што гульнявая нагрузка спараджае значна больш FP32-, чым INT-аперацый. Зрэшты, у Turing камбінаваных выканаўчых прылад не было наогул.


NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

Адначасова для таго, каб забяспечыць узмоцненыя струменевыя працэсары неабходным аб'ёмам дадзеных, NVIDIA на траціну павялічыла аб'ём L1-кеша ў SM (з 96 да 128 Кбайт), а таксама ўдвая павялічыла яго прапускную здольнасць.

Іншае важнае ўдасканаленне ў Ampere дакранаецца таго, што CUDA-, RT- і тэнзарныя ядры зараз могуць працаваць цалкам раўналежна. Гэта дазваляе графічнаму рухавічку, напрыклад, выкарыстоўваць DLSS для маштабавання аднаго кадра, і ў той жа час на CUDA-і RT-ядрах разлічваць наступны кадр, скарачаючы прастоі функцыянальных вузлоў і паднімаючы агульную прадукцыйнасць.

Да гэтага трэба дадаць, што RT-ядры другога пакалення, якія рэалізаваны ў Amрere, могуць вылічаць скрыжаванні трыкутнікаў прамянямі ў два разы хутчэй, чым гэта адбывалася ў Turing. А новыя тэнзарныя ядры трэцяга пакалення ў два разы палепшылі матэматычную прадукцыйнасць пры працы з разрэджанымі матрыцамі.

Падваенне хуткасці разліку скрыжаванняў трыкутнікаў у Ampere павінна істотна паўплываць на прадукцыйнасць паскаральнікаў GeForce RTX 30-й серыі ў гульнях з падтрымкай трасіроўкі прамянёў. Па сцвярджэнні NVIDIA, менавіта гэтая характарыстыка выступала вузкім месцам у архітэктуры Turing, у той час як паказчыкі хуткасці разлікаў скрыжаванняў прамянёў абмяжоўвалых паралелепіпедаў нараканняў не выклікалі. Цяпер жа баланс прадукцыйнасці ў трасіроўцы аптымізаваны, і больш за тое, у Ampere абодва тыпу аперацый з прамянямі (з трыкутнікамі і паралелепіпедамі) могуць выконвацца паралельна.

У дадатак да гэтага для RT-ядзер у Ampere была дададзеная новая функцыянальнасць, якая дазваляе інтэрпаліраваць становішча трыкутнікаў. Гэта можа быць выкарыстана для размыцця аб'ектаў у руху, калі не ўсе трыкутнікі ў сцэне знаходзяцца ў пастаяннай пазіцыі.

Для ілюстрацыі ўсяго пералічанага, NVIDIA паказала прамое параўнанне, як размяркоўваецца нагрузка на графічныя працэсары Turing і Ampere у трасіроўцы прамянёў у Wolfenstein Youngblood у дазволе 4K. Як вынікае з прадстаўленай ілюстрацыі, Ampere прыкметна выйграе ў хуткасці пабудовы кадра як за кошт хутчэйшых матэматычных FP32-вылічэнняў, так дзякуючы RT-ядрам другога пакалення, а таксама раўналежнай працы разнастайных рэсурсаў GPU.

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

Акрамя таго, для практычнага падмацавання выкладзенага, NVIDIA прадставіла дадатковыя вынікі тэстаў GeForce RTX 3090, GeForce RTX 3080 і GeForce RTX 3070. Згодна з ім, GeForce RTX 3070 прыкладна на 60% апярэджвае GeForce RTX 2070 у дазволе. з падтрымкай RTX, так і пры традыцыйнай растэрызацыі, у прыватнасці, у Borderlands 1440.

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

Прадукцыйнасць GeForce RTX 3080 аказваецца ўдвая лепш, чым у GeForce RTX 2080 у дазволе 4K. Праўда, у гэтым выпадку ў Borderlands 3 без падтрымкі RTX перавага новай карты не двухразовае, а прыкладна 80-адсоткавае.

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

А старэйшая карта, GeForce RTX 3090, ва ўласных тэстах NVIDIA паказвае прыкладна паўтараразовае перавага над Titan RTX.

NVIDIA патлумачыла, за кошт чаго паскаральнікі GeForce RTX 30-й серыі так ірванулі ў прадукцыйнасці

Як вынікае з паведамленняў тэхнічных журналістаў, паўнавартасныя агляды GeForce RTX 3080 эталоннага дызайну павінны быць апублікаваны 14 верасня. Праз тры дні, 17 верасня, будзе дазволена публікаваць дадзеныя тэстаў серыйных мадэляў GeForce RTX 3080 ад партнёраў кампаніі. Такім чынам, з'яўленні ў Сеткі вынікаў незалежных тэстаў прадстаўнікоў GeForce RTX 30-й серыі чакаць засталося зусім няшмат.

Крыніца:



Крыніца: 3dnews.ru

Дадаць каментар