NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

NVIDIA đã giới thiệu thế hệ card đồ họa chơi game Ampere mới vào ngày 1 tháng 30, nhưng phần trình bày ban đầu hầu như không có chi tiết kỹ thuật. Giờ đây, vài ngày sau, công ty đã phát hành tài liệu làm rõ lợi thế hiệu suất ấn tượng khiến card đồ họa dòng GeForce RTX XNUMX trở nên khác biệt so với các phiên bản tiền nhiệm đến từ đâu.

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Nhiều người ngay lập tức nhận thấy rằng thông số kỹ thuật chính thức của GeForce RTX 3090, GeForce RTX 3080 và GeForce RTX 3070 trên trang web NVIDIA cho thấy số lượng bộ xử lý CUDA lớn đến mức đáng kinh ngạc.

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Hóa ra, việc tăng gấp đôi hiệu suất FP32 của bộ xử lý chơi game Ampere so với Turing thực sự đã xảy ra và nó có liên quan đến sự thay đổi trong kiến ​​​​trúc của các khối xây dựng cơ bản của GPU - bộ xử lý luồng (SM).

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Trong khi SM trong GPU thế hệ Turing có một đường dẫn tính toán cho các phép toán dấu phẩy động thì trong Ampere, mỗi bộ xử lý luồng nhận được hai đường dẫn, tổng cộng có thể thực hiện tới 128 thao tác FMA trên mỗi chu kỳ xung nhịp so với 64 của Turing. Đồng thời, một nửa số đơn vị thực thi Ampere có sẵn có khả năng thực hiện cả hoạt động số nguyên (INT) và hoạt động dấu phẩy động 32 bit (FP32), trong khi nửa sau của thiết bị được dành riêng cho hoạt động FP32. Cách tiếp cận này được sử dụng để tiết kiệm ngân sách bóng bán dẫn, dựa trên thực tế là tải chơi game tạo ra nhiều FP32 hơn đáng kể so với hoạt động INT. Tuy nhiên, ở Turing không có bộ truyền động kết hợp nào cả.


NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Đồng thời, để cung cấp lượng dữ liệu cần thiết cho các bộ xử lý luồng nâng cao, NVIDIA đã tăng kích thước bộ đệm L1 trong SM lên một phần ba (từ 96 lên 128 KB) và cũng tăng gấp đôi thông lượng của nó.

Một cải tiến quan trọng khác trong Ampere là các lõi CUDA, RT và Tensor giờ đây có thể chạy hoàn toàn song song. Điều này cho phép công cụ đồ họa, chẳng hạn, sử dụng DLSS để chia tỷ lệ một khung hình, đồng thời tính toán khung hình tiếp theo trên lõi CUDA và RT, giảm thời gian ngừng hoạt động của các nút chức năng và tăng hiệu suất tổng thể.

Về vấn đề này, chúng ta phải nói thêm rằng lõi RT thế hệ thứ hai, được triển khai ở Amrere, có thể tính toán giao điểm của các hình tam giác với các tia nhanh gấp đôi so với ở Turing. Và các lõi tensor thế hệ thứ ba mới đã tăng gấp đôi hiệu suất toán học khi làm việc với các ma trận thưa thớt.

Việc tăng gấp đôi tốc độ Ampere tính toán các điểm giao nhau của tam giác sẽ có tác động đáng kể đến hiệu suất của bộ tăng tốc dòng GeForce RTX 30 trong các trò chơi hỗ trợ dò tia. Theo NVIDIA, chính đặc điểm này đã đóng vai trò như một nút cổ chai trong kiến ​​trúc Turing, trong khi tốc độ tính toán giao điểm của các tia của các hình bình hành giới hạn không gây ra bất kỳ phàn nàn nào. Giờ đây, sự cân bằng về hiệu suất trong việc dò tìm đã được tối ưu hóa và hơn nữa, trong Ampere, cả hai loại hoạt động tia (với hình tam giác và hình bình hành) đều có thể được thực hiện song song.

Ngoài ra, chức năng mới đã được thêm vào lõi RT của Ampere để nội suy vị trí của các hình tam giác. Điều này có thể được sử dụng để làm mờ các vật thể đang chuyển động khi không phải tất cả các hình tam giác trong cảnh đều ở một vị trí cố định.

Để minh họa tất cả những điều này, NVIDIA đã đưa ra một so sánh trực tiếp về cách GPU Turing và Ampere xử lý tính năng dò tia trong Wolfenstein Youngblood ở độ phân giải 4K. Như sau minh họa được trình bày, Ampere được hưởng lợi đáng kể về tốc độ xây dựng khung nhờ tính toán FP32 toán học nhanh hơn, nhờ lõi RT thế hệ thứ hai, cũng như hoạt động song song của các tài nguyên GPU không đồng nhất.

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Ngoài ra, để củng cố những điều trên một cách thực tế, NVIDIA đã trình bày kết quả thử nghiệm bổ sung cho GeForce RTX 3090, GeForce RTX 3080 và GeForce RTX 3070. Theo họ, GeForce RTX 3070 vượt trội hơn khoảng 60% so với GeForce RTX 2070 ở độ phân giải 1440p, và hình ảnh này được quan sát thấy trong các trò chơi có hỗ trợ RTX và với phương pháp rasterization truyền thống, đặc biệt là trong Borderlands 3.

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Hiệu suất của GeForce RTX 3080 tốt gấp đôi so với GeForce RTX 2080 ở độ phân giải 4K. Đúng, trong trường hợp này, trong Borderlands 3 không hỗ trợ RTX, lợi thế của thẻ mới không phải là gấp đôi mà là khoảng 80%.

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Và thẻ cũ hơn, GeForce RTX 3090, trong các thử nghiệm của chính NVIDIA cho thấy lợi thế gấp rưỡi so với Titan RTX.

NVIDIA giải thích tại sao bộ tăng tốc dòng GeForce RTX 30 lại có hiệu suất nhảy vọt như vậy

Theo báo cáo từ các nhà báo công nghệ, các bài đánh giá đầy đủ về thiết kế tham chiếu GeForce RTX 3080 sẽ được công bố vào ngày 14 tháng 17. Ba ngày sau, vào ngày 3080 tháng 30, công ty sẽ được phép công bố dữ liệu thử nghiệm cho các mẫu GeForce RTX XNUMX sản xuất từ ​​các đối tác của công ty. Vì vậy, chỉ còn rất ít thời gian để chờ kết quả kiểm tra độc lập của các đại diện dòng GeForce RTX XNUMX xuất hiện trên Internet.

Nguồn:



Nguồn: 3dnews.ru

Thêm một lời nhận xét