NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

NVIDIA memperkenalkan generasi baharu kad grafik permainan Ampere pada 1 September, tetapi pembentangan awal hampir tidak mengandungi butiran teknikal. Kini, beberapa hari kemudian, syarikat itu telah mengeluarkan dokumentasi yang menjelaskan dari mana kelebihan prestasi mengagumkan yang membezakan kad grafik GeForce RTX 30-siri daripada pendahulunya.

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Ramai segera menyedari bahawa spesifikasi rasmi GeForce RTX 3090, GeForce RTX 3080 dan GeForce RTX 3070 di laman web NVIDIA menunjukkan bilangan pemproses CUDA yang sangat besar.

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Ternyata, penggandaan prestasi FP32 pemproses permainan Ampere berbanding Turing memang berlaku, dan ia dikaitkan dengan perubahan dalam seni bina blok binaan asas GPU - pemproses aliran (SM).

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Walaupun SM dalam GPU generasi Turing mempunyai satu laluan pengiraan untuk operasi titik terapung, di Ampere setiap pemproses aliran menerima dua laluan, yang secara keseluruhannya boleh melakukan sehingga 128 operasi FMA setiap kitaran jam berbanding 64 untuk Turing. Pada masa yang sama, separuh daripada unit pelaksanaan Ampere yang tersedia mampu melaksanakan kedua-dua operasi integer (INT) dan operasi titik terapung 32-bit (FP32), manakala separuh kedua peranti ditujukan secara eksklusif untuk operasi FP32. Pendekatan ini digunakan untuk menjimatkan belanjawan transistor, berdasarkan fakta bahawa beban permainan menjana lebih banyak FP32 daripada operasi INT. Walau bagaimanapun, di Turing tidak ada penggerak gabungan sama sekali.


NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Pada masa yang sama, untuk menyediakan pemproses strim yang dipertingkatkan dengan jumlah data yang diperlukan, NVIDIA meningkatkan saiz cache L1 dalam SM sebanyak satu pertiga (daripada 96 kepada 128 KB), dan juga menggandakan pemprosesannya.

Satu lagi peningkatan penting dalam Ampere ialah teras CUDA, RT dan Tensor kini boleh berjalan sepenuhnya secara selari. Ini membolehkan enjin grafik, contohnya, menggunakan DLSS untuk menskalakan satu bingkai, dan pada masa yang sama mengira bingkai seterusnya pada teras CUDA dan RT, mengurangkan masa henti nod berfungsi dan meningkatkan prestasi keseluruhan.

Untuk ini, kita mesti menambah bahawa teras RT generasi kedua, yang dilaksanakan di Amrere, boleh mengira persilangan segi tiga dengan sinar dua kali lebih cepat daripada yang berlaku di Turing. Dan teras tensor generasi ketiga baharu telah menggandakan prestasi matematik apabila bekerja dengan matriks jarang.

Menggandakan kelajuan di mana Ampere mengira persimpangan segi tiga sepatutnya memberi kesan yang ketara pada prestasi pemecut siri GeForce RTX 30 dalam permainan yang menyokong pengesanan sinar. Menurut NVIDIA, ciri inilah yang bertindak sebagai hambatan dalam seni bina Turing, manakala kelajuan pengiraan persimpangan sinaran parallelepiped terikat tidak menimbulkan sebarang aduan. Kini keseimbangan prestasi dalam pengesanan telah dioptimumkan, dan lebih-lebih lagi, dalam Ampere, kedua-dua jenis operasi sinar (dengan segi tiga dan parallelepiped) boleh dilakukan secara selari.

Di samping itu, fungsi baharu telah ditambahkan pada teras RT Ampere untuk menginterpolasi kedudukan segi tiga. Ini boleh digunakan untuk mengaburkan objek dalam gerakan apabila tidak semua segi tiga dalam tempat kejadian berada dalam kedudukan malar.

Untuk menggambarkan semua ini, NVIDIA menunjukkan perbandingan langsung tentang cara GPU Turing dan Ampere mengendalikan pengesanan sinar dalam Wolfenstein Youngblood pada resolusi 4K. Seperti berikut daripada ilustrasi yang dibentangkan, Ampere nyata mendapat manfaat dalam kelajuan pembinaan bingkai kedua-duanya disebabkan oleh pengiraan matematik FP32 yang lebih pantas, terima kasih kepada teras RT generasi kedua, serta operasi selari sumber GPU heterogen.

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Di samping itu, untuk mengukuhkan secara praktikal perkara di atas, NVIDIA membentangkan keputusan ujian tambahan untuk GeForce RTX 3090, GeForce RTX 3080 dan GeForce RTX 3070. Menurut mereka, GeForce RTX 3070 adalah lebih kurang 60% mendahului GeForce RTX 2070 dalam resolusi 1440p, dan gambar ini diperhatikan dalam permainan dengan sokongan RTX, dan dengan rasterisasi tradisional, khususnya dalam Borderlands 3.

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Prestasi GeForce RTX 3080 adalah dua kali lebih baik daripada GeForce RTX 2080 pada resolusi 4K. Benar, dalam kes ini, dalam Borderlands 3 tanpa sokongan RTX, kelebihan kad baharu tidak berganda, tetapi kira-kira 80 peratus.

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Dan kad yang lebih lama, GeForce RTX 3090, dalam ujian NVIDIA sendiri menunjukkan lebih kurang satu setengah kali kelebihan berbanding Titan RTX.

NVIDIA menjelaskan mengapa pemecut siri GeForce RTX 30 mempunyai prestasi yang begitu pesat

Menurut laporan daripada wartawan teknologi, ulasan penuh reka bentuk rujukan GeForce RTX 3080 akan diterbitkan pada 14 September. Tiga hari kemudian, pada 17 September, ia akan dibenarkan untuk menerbitkan data ujian untuk pengeluaran model GeForce RTX 3080 daripada rakan kongsi syarikat. Oleh itu, terdapat sedikit masa lagi untuk menunggu keputusan ujian bebas wakil siri GeForce RTX 30 muncul di Internet.

Sumber:



Sumber: 3dnews.ru

Tambah komen