與一年前釋出的RTX 40系同代產品類似,於2024年1月推出的RTX 4070 Ti SUPER基於NVIDIA Ada Lovelace 架構,這一架構採用新型多單元流處理器、第3代 RT Core和第4代 Tensor Core。核心基於全新定製臺積電4N 製程工藝構建而成,擁有更高執行頻率且內建大容量L2快取,憑藉多種能力為使用者帶來更流暢的光線追蹤表現與全新創作方式。
從GPU-Z顯示的引數可以看出,RTX 4070 Ti SUPER與RTX 4070 Ti不同,基於在RTX 4080與RTX 4090 Laptop中應用的AD103核心,搭載66組多單元流處理器、8448個CUDA核心、264個Tensor核心、66個RT核心。視訊記憶體規格更為醒目,擁有與RTX 4080近似的16GB GDDR6X 256bit視訊記憶體,僅在視訊記憶體頻率與總頻寬上略低,以此為基礎擁有了4K解析度遊玩3A大作與更多應用的實力。
對比來看,RTX 4070 Ti SUPER在核心規格上比RTX 4070 Ti提升約10%,在部分專案例如光柵單元ROPs有20%的提升,視訊記憶體方面更是擁有跨越式升級。但我們還會產生一個疑問,同樣基於AD103核心,它比RTX 4080少了些什麼?
DIY玩家總愛談到“精準刀法”,但老黃究竟刀在了哪?Ada架構中一些計算單元間的關係能夠幫助我們解答此類問題。
這是一張Ada Lovelace架構的標準GPC(圖形處理簇)圖,從中我們可以看出RTX 40系顯示卡中各式計算單元間的數量與組合關係,例如每個GPC帶有16個ROPs(光柵單元);每個TPC(紋理處理簇)包括2組多單元流處理器。
而從這張更加微觀的多單元流處理器架構圖中我們可以看到,每組多單元流處理器會帶有1個RT核心、4個Tensor核心、4個紋理單元(Tex)、128個CUDA核心等,這是架構本身的特性。
但我們會注意到,並不是每個GPC中都一定包含6個TPC,例如RTX 4070 SUPER配備有2個5TPC的GPC,桌面端效能相對孱弱的RTX 4060(AD107)核心主要由3個4TPC的GPC組成。一些RTX 40系顯示卡擁有的TPC數量不是6的倍數,進而使得多單元流處理器數量不是12的倍數,RTX 4070 Ti SUPER也正屬於這種情況。
RTX 4070 SUPER配備的5TPC GPC
RTX 4060由3個4TPC GPC組成
GPU-Z資訊告訴我們,RTX 4070 Ti SUPER擁有96個ROPs,這一點能夠看出它採用的AD103核心為96/16=6個GPC,但透過66組多單元流處理器可知,它擁有33個而不是標準的36個TPC。
接下來,我們就能運用一下自己的想象力,想象出從下圖完整的AD103核心中“切”出RTX 4070 Ti SUPER的樣子。
相似的現象發生在許多NVIDIA顯示卡,乃至更多型別的晶片產品中。
例如此前推出的RTX 4080擁有112個ROPs、7個GPC,同時TPC數量也不是標準的42個,而是38個。運用了規格基本完整的AD103核心的RTX 4080 SUPER為40個TPC,可見完整核心也沒有那麼“完整”。
本代消費級GPU的霸主RTX 4090,其採用的AD102核心相比完整版也相差甚遠。
透過配備標準與非標準的GPC組合,RTX 40系顯示卡能夠調整不同型號對光柵、光追、FP32/INT32、張量計算等處理效能的傾向性。而讀者需要了解的是,ROPs數量與GPC相關,而其它主要衡量RTX 40系顯示卡規格的引數均與TPC數量相關。
這可以在一定程度上解答為何RTX 4060在RTX 40系招牌的DLSS 3功能下表現不佳。AD107核心採用3個規模更小的GPC,致使ROPs以外的計算單元規格不完整,因此在諸多應用上效能不足。
綜合以上我們對Ada架構的介紹,以及對RTX 4070 Ti SUPER等顯示卡的規格概述,不難看出它們都在某種程度上經受了“精準刀法”,並伴隨著L2快取、媒體引擎、視訊記憶體、功耗等更多維度的規格調整,使其更加符合NVIDIA的目標定位。而RTX 4070 Ti SUPER核心、L2快取、視訊記憶體等規格有所降低,但保留了更多與通用運算、AI相關的處理單元,也難怪NVIDIA將其定義為更平衡的AI應用選擇。
聚合標籤:
相關產品
網友評論
釋出