理解RTX 4070 Ti SUPER與Ada架構老黃的“精準刀法”是如何實現的？

與一年前釋出的RTX 40系同代產品類似，於2024年1月推出的RTX 4070 Ti SUPER基於NVIDIA Ada Lovelace 架構，這一架構採用新型多單元流處理器、第3代 RT Core和第4代 Tensor Core。核心基於全新定製臺積電4N 製程工藝構建而成，擁有更高執行頻率且內建大容量L2快取，憑藉多種能力為使用者帶來更流暢的光線追蹤表現與全新創作方式。

從GPU-Z顯示的引數可以看出，RTX 4070 Ti SUPER與RTX 4070 Ti不同，基於在RTX 4080與RTX 4090 Laptop中應用的AD103核心，搭載66組多單元流處理器、8448個CUDA核心、264個Tensor核心、66個RT核心。視訊記憶體規格更為醒目，擁有與RTX 4080近似的16GB GDDR6X 256bit視訊記憶體，僅在視訊記憶體頻率與總頻寬上略低，以此為基礎擁有了4K解析度遊玩3A大作與更多應用的實力。

對比來看，RTX 4070 Ti SUPER在核心規格上比RTX 4070 Ti提升約10%，在部分專案例如光柵單元ROPs有20%的提升，視訊記憶體方面更是擁有跨越式升級。但我們還會產生一個疑問，同樣基於AD103核心，它比RTX 4080少了些什麼？

DIY玩家總愛談到“精準刀法”，但老黃究竟刀在了哪？Ada架構中一些計算單元間的關係能夠幫助我們解答此類問題。

這是一張Ada Lovelace架構的標準GPC(圖形處理簇)圖，從中我們可以看出RTX 40系顯示卡中各式計算單元間的數量與組合關係，例如每個GPC帶有16個ROPs(光柵單元);每個TPC(紋理處理簇)包括2組多單元流處理器。

而從這張更加微觀的多單元流處理器架構圖中我們可以看到，每組多單元流處理器會帶有1個RT核心、4個Tensor核心、4個紋理單元(Tex)、128個CUDA核心等，這是架構本身的特性。

但我們會注意到，並不是每個GPC中都一定包含6個TPC，例如RTX 4070 SUPER配備有2個5TPC的GPC，桌面端效能相對孱弱的RTX 4060(AD107)核心主要由3個4TPC的GPC組成。一些RTX 40系顯示卡擁有的TPC數量不是6的倍數，進而使得多單元流處理器數量不是12的倍數，RTX 4070 Ti SUPER也正屬於這種情況。

RTX 4070 SUPER配備的5TPC GPC

RTX 4060由3個4TPC GPC組成

GPU-Z資訊告訴我們，RTX 4070 Ti SUPER擁有96個ROPs，這一點能夠看出它採用的AD103核心為96/16=6個GPC，但透過66組多單元流處理器可知，它擁有33個而不是標準的36個TPC。

接下來，我們就能運用一下自己的想象力，想象出從下圖完整的AD103核心中“切”出RTX 4070 Ti SUPER的樣子。

相似的現象發生在許多NVIDIA顯示卡，乃至更多型別的晶片產品中。

例如此前推出的RTX 4080擁有112個ROPs、7個GPC，同時TPC數量也不是標準的42個，而是38個。運用了規格基本完整的AD103核心的RTX 4080 SUPER為40個TPC，可見完整核心也沒有那麼“完整”。

本代消費級GPU的霸主RTX 4090，其採用的AD102核心相比完整版也相差甚遠。

透過配備標準與非標準的GPC組合，RTX 40系顯示卡能夠調整不同型號對光柵、光追、FP32/INT32、張量計算等處理效能的傾向性。而讀者需要了解的是，ROPs數量與GPC相關，而其它主要衡量RTX 40系顯示卡規格的引數均與TPC數量相關。

這可以在一定程度上解答為何RTX 4060在RTX 40系招牌的DLSS 3功能下表現不佳。AD107核心採用3個規模更小的GPC，致使ROPs以外的計算單元規格不完整，因此在諸多應用上效能不足。

綜合以上我們對Ada架構的介紹，以及對RTX 4070 Ti SUPER等顯示卡的規格概述，不難看出它們都在某種程度上經受了“精準刀法”，並伴隨著L2快取、媒體引擎、視訊記憶體、功耗等更多維度的規格調整，使其更加符合NVIDIA的目標定位。而RTX 4070 Ti SUPER核心、L2快取、視訊記憶體等規格有所降低，但保留了更多與通用運算、AI相關的處理單元，也難怪NVIDIA將其定義為更平衡的AI應用選擇。

聚合標籤：

相關產品

網友評論

釋出

理解RTX 4070 Ti SUPER與Ada架構 老黃的“精準刀法”是如何實現的？

理解RTX 4070 Ti SUPER與Ada架構老黃的“精準刀法”是如何實現的？