新年剛過,去年底剛剛公佈的 RTX 50 系列顯示卡已經開始鋪貨,不過受限於產能目前想要首批買到新顯示卡還有點困難。IT之家近期會陸續給大家帶來首批 RTX 50 系顯示卡的體驗評測,本期聊一下高階定位的索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡,給大家先解解饞。
索泰近幾年在顯示卡外觀設計上非常大膽,並在高階和旗艦顯示卡產品上採用雙 BIOS 的激進效能排程。本次我們就藉助一套旗艦配置,看看它能的表現如何。測試平臺具體配置如下:
一、外觀設計
索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡的裝甲部分採用了硬朗線條設計風格,輔以大量柵條元素裝飾,使整體呈現出一種工業風美學。
看似無序的斜切線條裝飾,實則蘊藏著對稱和工整的內斂之道。黑金色搭配的環刃風扇,在光線下呈現的光澤更顯質感。低飽和的灰色金屬裝甲,透過豐富的柵條呈現出獨特的層次感和工業風。
全新設計的環刃風扇部分增加了環形倒流風罩,最佳化了扇葉曲率和結構穩定性,降低風噪的同時能夠進一步增加風量和風壓,提升散熱效率。
顯示卡尺寸上,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡的三圍分別是 329.7mm x 137.8mm x 67.8mm(不含擋片),淨重約 2.3kg 左右。
索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡背板同樣採用了硬核工業風的設計,右側提供了大面積的斜切細條開孔和不規則鏤空開孔,兩種很少出現在一起的開孔設計相互碰撞,反而讓背板顯得更有特色。
透過鏤空開孔,能夠看到卡身內部厚實的散熱格柵,還有看不到的巨型 VC 均熱板和鍍鎳符合熱管加持,透過貫穿是散熱設計,讓風吹透鰭片,達到全方位立體散熱效果。
顯示卡兩側同樣被厚實的散熱裝甲包裹,並且在靠近顯示卡背板的一側做了一圈金色的鋁合金加固條。頂部側面鏤空字元的 ZOTAC GAMING 標誌和旁邊的索泰 Logo 支援 RGB 燈效,亮機後可實現炫酷的多彩 RGB 效果。
居中位置設有一大一小兩個開孔,分別內建了幻光同步介面、雙 BIOS 開關以及 16pin 顯示卡供電介面。其中幻光同步介面配合隨箱附送的專屬線材連線至主機板 ARGB 埠,輕鬆控制顯示卡燈光,而雙 BIOS 開關可提供加速模式和寂靜模式兩種風扇策略預設,兼顧滿血效能和靜音表現。
I/O 介面方面,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡提供了 3 個 DP2.1b 介面以及 1 個 HDMI 介面,擋板中間還印有一個白色的索泰 Logo。
配件方面,包裝內提供了一條 16pin 轉 4*8pin 的供電轉接線,幻光介面專屬白色燈光線,可拆卸鋁合金顯示卡之家以及一張彩色卡通形象卡片。
二、架構解析
NVIDIA GeForce RTX 5090 D 採用了全新的 Blackwell 架構,官網的介紹頁面赫然寫著一列“專為遊戲玩家和創作者打造的致勝平臺”,其中所代表的就是遊戲效能和 AI 效能的暴增。英偉達稱,目前對於畫面質量的追求已大幅度超越了摩爾定律所能夠提供的運算效能,加入神經網路渲染勢在必行。
由於加入了神經網路渲染,Blackwell 的多單元流處理器 (SM) 具有更高的處理吞吐量,並與 Tensor Core 更緊密結合,從而最佳化神經網路著色器的效能。
為了滿足下一代 DLSS 多幀生成的幀率穩定性需求,Blackwell 架構搭載了基於硬體的 Flip Metering,將幀率邏輯轉移到顯示引擎中,使得 GPU 能夠更精確地管理顯示時間。同時顯示引擎還增強了兩倍的畫素處理能力,以支援更高的解析度和重新整理率,從而釋放 DLSS 4 的效能潛力。
在第五代 Tensor Core 中新增了對 FP4 浮點運算精度的支援,FP4 是一種較低的量化方法,類似於檔案壓縮,可以減小模型推理過程中資料儲存和計算量大小,提高計算效率。FP4 使用視訊記憶體不到 FP16 的一半,GPU 效能的提升卻高達 2 倍。在生成式 AI 應用中,GeForce RTX 5090 D 的 FP4 影象生成速度是 RTX 4090 D 上 FP16 的 3 倍,視訊記憶體消耗減少一半。
在 RT Core 方面,提升了檢測光線、路徑與三角形相交的效能,可以對大量幾何圖形細節進行光線追蹤。在新一代 Blackwell 架構下光線、路徑與三角形相交的檢測效率為上一代的 2 倍,初代使用 RT Core 的 Turing 架構的 8 倍,並增強了壓縮以減少記憶體佔用,相比上代的視訊記憶體使用率節省了 25%,光線追蹤效果也得到了前所未有的細節提升。
除了技術上的提升,Blackwell 架構的 GPU 還搭載了 GDDR7 視訊記憶體。GDDR7 採用的是 PAM3 訊號編碼機制,與 GDDR6 和 GDDR6X 有所區別。PAM3 每兩週期的資料傳輸為 3 位,相比 GDDR6 和 GDDR6X 更省電,頻寬也進一步提升,速度高達 30Gbps。
Blackwell 還透過 PCIe 5.0 和 DisplayPort 2.1b UHBR20 實現了增強,單一通道支援 20Gbps 頻寬,從而支援高達 8K 165Hz 的顯示器。Blackwell 架構 GPU 配備了第九代 NVENC,支援 H.264 / H.265 4:2:2 編碼的 8 位和 10 位影片輸出。
具體到產品規格上,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 基於最新一代 GB202 核心和 TSMC 4N 架構製程工藝打造,內有 21760 個 CUDA 核心、680 個 Tensor 核心、170 個光追核心、680 個紋理單元、176 個 ROP 單元,核心規模相比 RTX 4090 大致相當,但解鎖了完整的 GPC 單元,單元內的 SM 和 TPC 群組數量均有增加。
索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡預設的 GPU 頻率範圍是 2017MHz-2317MHz。視訊記憶體方面升級為 512-bit 32GB GDDR7,頻寬來到了 1792GB/s。TBP 功耗為 600W,相比上代 RTX 4090 增加了 150W。
三、理論跑分
接下來就進入理論測試環節,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡屬於高階定位,自帶雙 BIOS 切換和超頻功能,所以測試之前必須先介紹一下索泰官方這次更新的 FireStorm 超頻應用,它允許使用者實時檢視顯示卡狀態,並進行自定義效能調節和雙 BIOS 切換。
進入主頁,FireStorm 應用整體採用了黑金配色,預設展示效能標籤頁內容。頂部顯示有顯示卡的幾個核心資料,下方則可以對顯示卡、視訊記憶體頻率,電壓以及功耗等指標進行自定義調節。實際效能測試環節,我們會將核心頻率關聯 BOOST 頻率這項拉滿。
風扇標籤頁中提供了自動和手動風扇調節模式,也可以透過曲線模式更精細化調節風扇轉速曲線。右側還有外觀部分提到的雙 BIOS 切換開關,切換時會彈出提示彈窗,告訴使用者當前模式狀態及要切換的模式,確認切換模式則需要重啟系統生效。
此外,FireStorm 應用還給到了使用者更加全面的顯示卡資訊展示和燈效控制,設定標籤中還允許使用者進行介面的一些人性化設定。具體的功能大家可以在購買索泰 50 系顯示卡後自行體驗,這裡就不展開了。IT之家拿到的版本是 5.0.0.001C,官網正式版的 FireStorm 版本號可能會與我們有所區別。
先看烤機,單烤甜甜圈 20 分鐘,GPU 的核心溫度穩定在 75.9℃左右,顯示卡頻率 2595MHz,功耗穩定在 575W 左右,和公版保持一致。
在 3DMark Time Spy DX12 測試中,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡分數達到了 49004 分,作為對比 GeForce RTX 4090 公版的分數為 34725 分,提升幅度達到了 41.1%,差距著實不小。
而在 3D Mark Time Spy Extreme DX12 測試中,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡分數達到了 26112 分,作為對比 GeForce RTX 4090 公版的分數為 19924 分,提升幅度達到了 31%。
在 3DMark Portal Royal 實時光追測試中,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡的綜合分為 36239 分,作為對比 GeForce RTX 4090 公版的分數為 25080 分,提升幅度達到了 44.5%。
從上述測試來看,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡相較於上一代 RTX 4090 D 的提升幅度一點不小,30%-45% 左右的理論效能增幅,足以說明它在圖形效能上的迅猛迭代。
四、遊戲實測
雖然 NVIDIA 官方宣稱首批支援 DLSS 4 的遊戲高達 75 款,不過目前能夠順利開啟 DLSS 4 相關選項的遊戲非常有限,所以多數主流遊戲我們依舊測試的是 DLSS 3 和幀生成的表現,然後透過《賽博朋克:2077》和《心靈殺手 2》兩款遊戲單獨為大家呈現 DLSS 4 技術的實際表現。
1、《CS2》
在更新升級後效能要求大幅提升的《CS2》中,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡以 4K 解析度 + 高畫質下跑出了 430 幀的遊戲平均幀數,1% Low 幀為 188 幀。
而在 2K 解析度 + 高畫質下則跑到了平均 634 幀的遊戲幀數,1% Low 幀提升到 240 幀,餵飽 4K 和 2K 解析度高刷屏無壓力。
2、《無限暖暖》
接下來是一款“最佳化出色”的端遊《無限暖暖》,這款遊戲對硬體資源的開銷非常大,完全不輸 3A 大作。
在 4K 解析度 + 極致畫質 + TAA 抗鋸齒下,遊戲平均幀數為 168 幀,1% Low 幀 124 幀;
在 4K 解析度 + 極致畫質 + DLSS 抗鋸齒下,遊戲平均幀數為 165 幀,1% Low 幀 128 幀;
在 2K 解析度 + 極致畫質 + 上取樣抗鋸齒下,遊戲平均幀數為 231 幀,1% Low 幀 161 幀;
在 2K 解析度 + 極致畫質 + DLSS 抗鋸齒下,遊戲平均幀數為 190 幀,1% Low 幀 148 幀;
在 5090 D 的加持下,無論 2K 還是 4K 解析度下,1% Low 幀都超過了 120 幀,對比上代 RTX 4090 D 在 4K 解析度下 100 幀左右的遊戲平均幀,提升相當明顯。
3、《古墓麗影:暗影》
透過《古墓麗影:暗影》這款傳統光柵遊戲,可以考察下索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡的光柵效能表現。
在 4K 解析度 + 最高畫質下,遊戲平均幀數為 244 幀;
在 2K 解析度 + 極致畫質下,遊戲平均幀數為 373 幀;
相比上一代 RTX 4090,4K 和 2K 解析度下的遊戲平均幀數提升分別達到了 35.8% 和 46%。
4、《極限競速:地平線 5》
《極限競速:地平線 5》有著較為出色的最佳化:
在 4K 解析度 + 極端畫質下,遊戲平均幀數為 205 幀,1% Low 幀 102 幀;
在 2K 解析度 + 極端畫質下,遊戲平均幀數為 253 幀,1% Low 幀 105 幀;
相比上一代 RTX 4090,4K 和 2K 解析度下的遊戲平均幀數提升分別達到了 28% 和 38%。
5、《孤島驚魂 6》
接下來是支援 DLSS 3 技術的光追遊戲,首先是《孤島驚魂 6》,它對 GPU 效能和 CPU 的單核效能要求都很高,經過實測:
在 4K 解析度 + 極高畫質下,遊戲平均幀數為 190 幀,1% Low 幀 80 幀;
在 4K 解析度 + 極高畫質 + 開啟光追 + DLSS 質量下,遊戲平均幀數為 166 幀,1% Low 幀 77 幀;
相比上一代 RTX 4090,4K 預設和 4K 光追下的遊戲平均幀數提升分別達到了 47.1% 和 47.3%,可以說是幾乎提升了一半。
在 2K 解析度 + 極高畫質下,遊戲平均幀數為 255 幀,1% Low 幀 128 幀;
在 4K 解析度 + 極高畫質 + 開啟光追 + DLSS 質量下,遊戲平均幀數為 209 幀,1% Low 幀 105 幀;
相比上一代 RTX 4090,4K 預設和 4K 光追下的遊戲平均幀數提升分別達到了 42.6% 和 53%。
6、《黑神話:悟空》
作為“眾生平等”的代表遊戲,黑神話對光線追蹤和 DLSS 技術的支援非常深入,由此也造成了高解析度下超高的硬體要求。在 4K 解析度 + 超高全景光追的設定下,強如 RTX 5090 D 也只能跑到 30 幀,我們還是直接來看 DLSS 和幀生成加持下的表現好了。
4K 解析度 + 影視級畫質 + 50% 超取樣解析度下,遊戲平均幀數為 101 幀;
4K 解析度 + 影視級畫質 + 50% 超取樣解析度 + 高全景光追 + 幀生成下,遊戲平均幀數為 133 幀;
不開啟光追選項下,以 4K 解析度 + 影視級畫質執行,遊戲幀數來到了百幀以上,而開啟高等級全景光追和幀生成之後,平均幀數更是突破了 130 幀,直接擁有電競級體驗。
在 2K 解析度 + 影視級畫質 + 50% 超取樣解析度下,遊戲平均幀數為 116 幀;
在 2K 解析度 + 影視級畫質 + 50% 超取樣解析度 + 高全景光追 + 幀生成下,遊戲平均幀數為 178 幀;
可以看到,2K 解析度下不開光追的提升幅度比較有限,而開光追加幀生成的直接暴漲了 40 多幀,恐怖如斯。
五、DLSS 4 遊戲體驗
目前 RTX 40 系列已經支援的 DLSS 3 技術實際效果已經非常強大了,DLSS 4 在 DLSS 3 的技術上,再次提升了幀生成的效能潛力,運用全新的多幀生成技術,結合第五代 Tensor Core 的強大效能,利用 AI 為每個渲染幀生成至多 3 個額外幀,從而大幅提升遊戲的 FPS 水平。
DLSS 4 配合全套 DLSS 技術,包括光線重建、超解析度以及 DLAA 等功能,最多可實現傳統影象渲染的 8 倍幀率。擁有 DLSS 4 技術的遊戲,玩家使用 RTX 5090 D 可輕鬆解鎖 4K 240 FPS 全景光追的滿血效能體驗。
多幀生成技術還可配合 NVIDIA Reflex 低延遲技術保持較低的遊戲延遲,讓遊戲的操作和響應影響很小。畢竟 GPU 為每個渲染幀計算時,都設計到超解析度、光線重建和多幀生成等多維度,延遲的增加不可避免。不過,GeForce RTX 50 系列的第 5 代 Tensor Core 在 AI 處理效能上提升了 2.5 倍,因此遊戲的延遲變化很小,具體我們將在下面的遊戲例項中為大家演示。
Blackwell 顯示引擎也在 DLSS 4 技術發揮了重要作用,透過提升其畫素處理能力,讓遊戲在更高解析度和重新整理率下滿足 DLSS 4 技術的要求,最高可提升 1 倍的畫素處理能力。
DLSS 4 技術還帶來了模型架構的重大升級,DLSS 光線重建、DLSS 超解析度和 DLAA 特性均由首個實時 Transformer 模型驅動,並用來提升生成畫素的質量,它支援透過自注意力操作評估整個幀幾多個幀中每個畫素的重要程度,更好理解場景關係,讓生成的畫素具有更好穩定性、更少的偽影、更豐富的運動細節和平滑邊緣。
官方表示,目前已有超過 75 款支援 DLSS 幀生成技術的遊戲和應用可在 GeForce RTX 50 系列 GPU 上升級至 DLSS 多幀生成技術,不少主流 3A 大作也將於 50 系顯示卡正式發售後不久體驗到 DLSS 4,包括《心靈殺手 2》、《奪寶奇兵:古老之圈》、《黑神話:悟空》、《星球大戰:亡命之徒》《寂靜嶺 2:重製版》等熱門作品。
IT之家選取了目前 2 款畫質和 DLSS 4 支援最好的遊戲《賽博朋克:2077》和《心靈殺手 2》進行實測。咱們先看《賽博朋克:2077》的表現。
在 4K 解析度超級光追畫質下,遊戲平均幀數為 60 幀;
在 4K 解析度超速光追畫質下,遊戲平均幀數為 33 幀;
在沒有 DLSS 技術的支援下,這款遊戲在 4K 解析度 + 光追畫質下的圖形效能壓力山大,5090 D 這樣的卡皇只能勉強維持在 60 幀,路徑光追下幀數更是直接折半。
如果不開光追和 DLSS,採用 4K 解析度 + 超級畫質,遊戲平均幀數的表現還可以,能達到 116 幀左右。
接著我們看下多幀生成的選項,開啟幀生成選項後,下面多出了一個多幀生成的倍率選擇項,即 DLSS Multi Frame Generation,可選擇 2x、3x 和 4x 這 3 種生成倍率。
我們直接上最強的 4K 解析度 + 路徑光追,並選擇 DLSS 效能檔,依次切換 2x、3x 和 4x 的多幀生成選項,從測試結果來看,遊戲平均幀數的提升相當明顯,2x 下就有 164 幀,比不開光追和 DLSS 的 4K + 超級畫質幀數還要高出近 50 幀,3x 多幀生成下更是突破 200 幀,而 4x 多幀生成下 292 幀的遊戲平均幀數放在一起那是根本不敢想的水平。
單從效能表現上看,DLSS 4 技術可以說開闢了一條遊戲效能發展的新賽道,它不再執著於傳統光柵效能的提升,而是藉助 AI 和補幀技術,為光追遊戲提供跨越式的效能提升,而且越吃效能的遊戲收益越大。
當然,無論是何種形式的插幀,延遲的增加都不可避免,所以我們也實測了關閉和開啟多幀生成後的延遲表現。
在關閉幀生成選項的情況下,同一場景下 4K 超級畫質和 4K 超級光追畫質的遊戲平均延遲分別為 15ms 和 18ms。
而切換到超速光追畫質後,依舊在同一場景下分別開啟 2x、3x 和 4x 多幀生成,遊戲平均延遲分別為 21ms、24ms 和 27ms。
事實正面,幀生成確實會提升一定的遊戲延遲,好在對於《賽博朋克:2077》這款遊戲來說,影響並不大。開啟多幀生成後,3 個檔位間延遲依次遞增 3ms,總體延遲都控制在 30ms 以內,實際遊戲過程中即便是射擊和砍殺體驗也不會出現延遲不跟手的情況。
我們再來看《心靈殺手 2》的表現。在 4K 解析度 + 原生最高畫質下,遊戲的平均幀數為 74 幀,注意此時遊戲的延遲只有 36ms。
而一旦我們開啟光追選項,遊戲平均幀數立刻會跌到無法流程遊玩的水平:
4K 解析度 + 原生最高畫質 + 光追下,遊戲平均幀數為 40 幀,1% LOW 幀 37 幀;
4K 解析度 + 原生最高畫質 + 路徑光追下,遊戲平均幀數為 28 幀,1% LOW 幀 25 幀;
與此同時,大家應該也注意到開啟光追後的遊戲平均延遲會大幅提升,由原先的 36ms 提升到了 65ms 和 92ms,即使幀數勉強達到 30 幀的主機流暢線,遊戲體驗也很難舒適。那麼 DLSS 4 技術能扳回一城嗎?
開啟多幀生成後,局勢立刻發生了逆轉,2x、3x 和 4x 多幀生成下的遊戲平均幀數分別為 132 幀、186 幀和 249 幀,雖然沒有《賽博朋克:2077》最高接近 300 那樣誇張,但效能的提升也是顯而易見的。
而在遊戲平均延遲的表現上,開啟多幀生成後幀數相比 4K + 路徑光追下少了一半,來到 45ms,2x、3x 和 4x 多幀生成下的增幅和《賽博朋克:2077》保持一致,都是 3ms 的遞增,毫無疑問 Reflax 低延遲功勞很大。考慮到《心靈殺手 2》剛剛適配 DLSS 4,目前的延遲表現可以接受,希望遊戲後續能夠進一步最佳化延遲表現。
那說到延遲,新一代 NVIDIA Reflex 2 低延遲技術也可進一步降低遊戲的延遲表現,提升操作手感和響應速度。過去四年裡,NVIDIA Reflex 已整合到超過 100 款遊戲中,可以將 PC 延遲降低 50%。新的 Reflex 2 將採用一項 Reflex Frame Warp 技術,透過把最新的滑鼠輸入指令及時同步給渲染幀,實時重新整理和控制渲染出的遊戲幀,可以說是定製化的低延遲調整了。
NVIDIA Reflex 2 將在未來不僅支援主流競技遊戲和動作遊戲,如《無畏契約》等。相信透過這一技術,開啟 DLSS 4 之後的遊戲低延遲表現會更加出色。
那麼多幀生成會影響畫質嗎?通俗點說就是會不會令畫面變得更糊?為此我們也在《心靈殺手 2》中同一個場景擷取了 3 種不同畫質設定的遊戲畫面,分別是:
4K 原生畫質 + 路徑光追;
4K 最高畫質 + DLSS 效能檔(1080P 渲染)+4x 幀生成
4K 最高畫質 + DLAA(4K 渲染)+4x 幀生成
然後透過 NVIDIA ICAT 工具進行比較,在不放大的情況下 3 者根本看不出區別,所以我們挑選了 3 處細節進行放大對比。
首先是警員手臂衣服上的 FBI 標誌,左側和右側分別是 DLAA(4K 渲染)和原生 4K 畫質,中間是 DLSS 效能(1080P 渲染),經過放大可以看到中間圖片的 FB 文字更糊一點,但左右基本看不出清晰度上的區別。
同樣在警員的波浪捲髮以及身旁右側的樹葉上也能看出中間的畫面更糊一點,左右兩邊的圖片卻難以發現差距。
也就是說對於物理渲染解析度上的天然鴻溝,DLSS 技術肯定是無法完全彌補畫質差距的,但只要保持和原生畫質相同的解析度(即開啟 DLAA),畫面清晰度和細節幾乎沒有區別,更別說我們這種“盯幀式”比較有點吹毛求疵,正常遊戲無論是 DLSS 效能檔(1080P 渲染)還是 DLAA(4K 渲染)都不會有糊成一片,鋸齒滿滿這種明顯問題,所以最主要的還是看遊戲適配,在乎畫質的小夥伴直接開啟 DLAA 就好了。
六、總結
作為繼任 RTX 4090 D 位置的新一代卡皇,索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡不僅很好完成了使命,還透過 DLSS 4 技術開闢了全新的遊戲效能賽道,在對畫質、延遲影響非常有限的情況下,實現了效能的成倍提升,這對遊戲體驗來說無疑是一個進化。同時,DLSS 4 技術的成功也奠定了未來顯示卡效能的升級方向,即只渲染關鍵幀,過渡幀可透過 AI 補幀來填充,以最佳的效能表現呈現給玩家;光追遊戲的開發者也能更好施展拳腳,最佳化更加輕鬆。
索泰 GEFORCE RTX 5090 D 32GB SOLID OC 顯示卡在設計上採用了經典的黑金配色,搭配硬朗裝飾線條和 RGB Logo 燈,既有高階質感又能滿足玩家個性化需求,應該說也選了一個不錯的思路。雙 BIOS 設計則兼顧了玩家對於執行噪音的顧慮,兼顧效能優先和靜音環境優先的選擇,值得肯定,畢竟將選擇權交給玩家才是廠商該有的姿態。