在 CES 2025 大展上,NVIDIA 推出了基於 Blackwell 架構的 GeForce RTX 50 系列遊戲顯示卡。近期,IT 之家拿到了其中的 NVIDIA GeForce RTX 5080 Founders Edition。這款顯示卡採用了全新一代的 Blackwell 架構,配備了 GDDR7 視訊記憶體,容量高達 16GB,還搭載了 DLSS 4 技術,能在很大程度上提升遊戲幀率。
為了釋放 NVIDIAGeForce RTX 5080 FE 的全部效能,本次測試平臺具體配置如下:
一、外觀設計
NVIDIA GeForce RTX 5080 的包裝相比上一代更加環保,沒有複雜印刷裝飾,僅是原色紙箱。紙箱中間印有碩大的產品型號 GEFORCE RTX 5080,抽出上下兩片固定卡片即可開啟包裝。
公版的 RTX 5080 看似延續上一代 RTX 40 系顯示卡的風格,但由內到外都是全新的設計。其散熱系統採用“Double Flow Through (雙流式)”的散熱技術,與常規顯示卡主機板靠近 I/O 介面側不同,RTX 50 系列的主機板為居中設計,主機板兩側的散熱鰭片的前後均沒有遮擋,兩顆大尺寸風扇(IT之家實測直徑約為 116mm)可直接吹拂鰭片,使得氣流穿越度最大化。與以往公版顯示卡散熱方案相比熱管理有顯著提升。
公版 RTX 5080 背部兩側為大面積散熱鰭片,鰭片表面做了黑化處理,看起來更有質感。另外鰭片中間部分略微向內凹陷,有種有機美學的感覺。
體積方面經過IT之家實測,公版 RTX 5080 顯示卡的三圍分別是 300*123*40mm(不含金手指與擋片),裸卡重量約 1.64kg。
公版 RTX 5080 中間部分同樣做了曲面過渡,顯示卡的拿取更加舒適,不會覺得割手。顯示卡的兩側均採用 2 組散熱開口,確保顯示卡擁有出色的散熱效果。頂部配備了 16pin(12+4)供電介面,GEFORCE RTX 的 Logo 支援 RGB 燈效。
顯示卡底部可以看到新版 PCIe5.0 規格的金手指。
公版顯示卡的配件方面還是一如既往的簡潔,僅有一根轉 4*8pin 電源轉接線。
NVIDIAGeForce RTX 5080 FE 的 I/O 金屬擋板上,配備了 3 個 DP2.1b 介面和 1 個 HDMI2.1b 介面,支援最高 8K / 165Hz 輸出。
二、技術解析
NVIDIA GeForce RTX 5080 搭載了全新的 Blackwell 架構,官網介紹頁面醒目地寫著“專為遊戲玩家和創作者打造的致勝平臺”。這一表述意味著該產品在遊戲效能與 AI 效能方面將實現大幅提升。NVIDIA 指出,當下人們對畫面質量的追求,其所需的運算效能已遠超摩爾定律所能提供的範疇。在此情形下,引入神經網路渲染技術以提高幀率,無疑是極為明智的選擇。
得益於神經網路渲染的融入,Blackwell 的多單元流處理器(SM)實現了處理吞吐量的提升,並且與 Tensor Core 的結合更為緊密,這一最佳化有效提升了神經網路著色器的效能表現。
為確保下一代 DLSS 4 多幀生成技術下幀率的穩定性,Blackwell 架構特別配備了基於硬體的 Flip Metering。這一技術將幀率邏輯轉移至顯示引擎內,使 GPU 能夠更精準地把控顯示時間。不僅如此,顯示引擎的畫素處理能力也得到了翻倍增強,從而能夠更好地支援更高的解析度與重新整理率,充分釋放 DLSS 4 的效能潛力。
第五代 Tensor Core 新增對 FP4 浮點運算精度的支援。FP4 作為低量化方法,類似檔案壓縮,能減小模型推理的資料儲存與計算量,提升計算效率。其視訊記憶體使用不到 FP16 的一半,卻可使 GPU 效能提升 2 倍。
RT Core 方面,提升了光線、路徑與三角形相交的檢測效能,可對大量幾何圖形細節進行光線追蹤。新一代 Blackwell 架構下,該檢測效率是上一代的 2 倍、初代 Turing 架構的 8 倍。同時增強壓縮減少記憶體佔用,相比上代視訊記憶體使用率節省 25%,光線追蹤細節大幅提升。
除技術提升,Blackwell 架構 GPU 搭載 GDDR7 視訊記憶體,採用 PAM3 訊號編碼機制,與 GDDR6、GDDR6X 不同。PAM3 每兩週期傳輸 3 位資料,更省電,頻寬提升,速度達 30Gbps。
Blackwell 還透過 PCIe 5.0 和 DisplayPort 2.1b UHBR20 實現增強,單通道支援 20Gbps 頻寬,可支援 8K 165Hz 顯示器。此外,該架構 GPU 配備第九代 NVENC,支援 H.264 / H.265 4:2:2 編碼的 8 位和 10 位影片輸出。
具體到產品規格上,NVIDIA GeForce RTX 5080 基於最新一代 GB200-400-A1 核心和 TSMC 4N 架構製程工藝打造,內有 10752 個 CUDA 核心、336 個 Tensor 核心、84 個光追核心、336 個紋理單元、128 個 ROP 單元,核心規模相比 RTX 4080 提升約為 10.5%,單元內的 SM 和 TPC 群組數量也均有增加。GeForce RTX 5080 的核心頻率範圍是 2.3Hz-2.62GHz。視訊記憶體方面升級為 256-bit 16GB GDDR7,頻寬來到了 960GB/s。TGP 功耗為 360W,相比上代 RTX 4080 增加了 40W。
三、理論跑分
作為一款高階顯示卡,GeForce RTX 5080 有著怎麼的效能與效能釋放呢?接下來就進入理論測試環節。先看烤機,單烤甜甜圈 10 分鐘,GPU 的核心溫度穩定在 73.4℃左右,顯示卡頻率 1500MHz,晶片功耗穩定在 336W 左右,而電路板功耗則是和官方宣傳的一致,為 360W。搭配 i7 / i9 或銳龍 7、銳龍 9 這樣的高階處理器,1000W 的電源足以。
在 3DMark Time Spy DX12 測試中,NVIDIA GeForce RTX 5080 FE 分數達到了 32022 分,作為對比 GeForce RTX 4080 FE 的分數為 26552 分,提升約為 21%,提升幅度較大。
而在 3D Mark Time Spy Extreme DX12 測試中,NVIDIA GeForce RTX 5080 FE 分數達到了 16139 分,作為對比 GeForce RTX 4080 FE 的分數為 13670 分,提升幅度達到了 18%。
在 3DMark Portal Royal 實時光追測試中,NVIDIA GeForce RTX 5080 FE 的綜合分為 22060 分,作為對比 GeForce RTX 4080 FE 的分數為 17250 分,提升幅度達到了 27.9%。
透過 3D Mark 一系列的顯示卡測試專案跑分不難發現,公版 RTX 5080 的圖形效能提升穩定,各項測試有著 18%-28% 左右的提升幅度。
四、遊戲實測
這次的遊戲實測稍微有點不同,雖然 NVIDIA 官方宣稱首批支援 DLSS 4 的遊戲高達 75 款,不過目前要想在遊戲中順利開啟 DLSS 4 相關選項還需要透過 Steam 的測試版通道啟用,所以多數主流遊戲我們依舊測試的是 DLSS 3 和幀生成的表現,並在最後以《賽博朋克:2077》這款遊戲單獨為大家呈現 DLSS 4 技術的實際表現。
1、《CS2》
首先是《CS2》,這款遊戲相較於《CS:GO》效能壓力大了不少,不過即便如此 NVIDIA GeForce RTX 5080 FE 依舊在 4K 解析度 + 高畫質下跑出了 291 分的遊戲平均幀數,1% Low 幀也有 126.3 幀。
而在 2K 解析度 + 高畫質下則跑到了平均 482 幀的遊戲幀數,1% Low 幀提升到 235.8 幀,完全不會影響遊戲發揮。
2、《永劫無間》
競技遊戲我們選擇測試的是《永劫無間》和《漫威爭鋒》,《永劫無間》目前支援了 DLSS 和幀生成技術,我們開啟 DLSS 選項前後 4K 與 2K 的幀率表現。在 4K 解析度 + 高畫質 + DLSS 質量檔 + 幀生成 / 低延遲下,遊戲平均幀數 155 幀,1% Low 幀 100 幀,遊戲平均延遲 28ms;
在 2K 解析度 + 高畫質 + DLSS 質量檔 + 幀生成 / 低延遲下,遊戲平均幀數 215 幀,1% Low 幀 101 幀,遊戲平均延遲 20ms;
3、《無限暖暖》
接下來是兩款端遊,首先是“最佳化出色”的《無限暖暖》,這款遊戲開啟光追後對硬體資源的開銷非常大,完全不輸 3A 大作。
在 4K 解析度 + 極致畫質 + 開啟光追,遊戲平均幀數為 109 幀,1% Low 幀 96 幀;
在 4K 解析度 + 極致畫質 + 關閉光追,遊戲平均幀數為 120 幀,1% Low 幀 109 幀;
整體接近於上一代卡皇 RTX 4090 的遊戲幀數,遊戲明顯更加流暢,操作也更加跟手了。
在 2K 解析度 + 極致畫質 + 開啟光追,遊戲平均幀數為 152 幀,1% Low 幀 103 幀;
在 2K 解析度 + 極致畫質 + 關閉光追,遊戲平均幀數為 182 幀,1% Low 幀 121 幀;
4、《古墓麗影:暗影》
傳統光柵單機遊戲可以考察一下 RTX 5080 在非光追和 DLSS 時的效能表現:
在 4K 解析度 + 最高畫質下,遊戲平均幀數為 147 幀;
在 2K 解析度 + 最高畫質下,遊戲平均幀數為 270 幀;
相比上一代 RTX 4080,4K 解析度下的遊戲平均幀數提升了 7%。
5、《極限競速:地平線 5》
《極限競速:地平線 5》有著較為出色的最佳化:
在 4K 解析度 + 極端畫質下,遊戲平均幀數為 158 幀,1% Low 幀 125 幀;
在 2K 解析度 + 極端畫質下,遊戲平均幀數為 208 幀,1% Low 幀 158 幀;
相比上一代 RTX 4080,4K 和 2K 解析度下的遊戲平均幀數提升分別達到了 30% 和 32%。
6、《孤島驚魂 6》
接下來就是光追遊戲了,首先是《孤島驚魂 6》,它對 CPU 的單核效能要求也很高,支援光追和 DLSS。經過實測:
在 4K 解析度 + 極高畫質下,遊戲平均幀數為 131 幀,1% Low 幀 117 幀;
在 4K 解析度 + 極高畫質 + 開啟光追 + DLSS 質量下,遊戲平均幀數為 115 幀,1% Low 幀 102 幀;
相比上一代 RTX 4080,4K 預設和 4K 光追下的遊戲平均幀數提升分別達到了 24% 和 25%。
在 2K 解析度 + 極高畫質下,遊戲平均幀數為 212 幀,1% Low 幀 188 幀;
在 2K 解析度 + 極高畫質 + 開啟光追 + DLSS 質量下,遊戲平均幀數為 177 幀,1% Low 幀 153 幀;
相比上一代 RTX 4080,2K 預設和 2K 光追下的遊戲平均幀數提升分別達到了 32% 和 40%。
7、《黑神話:悟空》
在測試繞不開的“眾生平等”之作《黑神話:悟空》中:
4K 解析度 + 影視級畫質 + 50% 超取樣解析度 + 高全景光追,遊戲平均幀數為 80 幀;
4K 解析度 + 影視級畫質 + 50% 超取樣解析度 + 高全景光追 + 幀生成下,遊戲平均幀數為 121 幀;
可以看到在 RTX 5080 的加持下,4K 解析度 + 影視級畫質的黑猴也能達到 120 幀以上的遊戲平均幀數,體驗提升巨大。
而切換到 2K 解析度後:
在 2K 解析度 + 影視級畫質 + 50% 超取樣解析度下,遊戲平均幀數為 85 幀;
在 2K 解析度 + 影視級畫質 + 50% 超取樣解析度 + 高全景光追 + 幀生成下,遊戲平均幀數為 128 幀;
8、《真三國無雙:起源》
最後我們再測一款剛發售不久的遊戲《真三國無雙:起源》,它恰好就在首批支援 DLSS 4 技術的 75 款遊戲當中,可惜目前遊戲還未啟用 DLSS 4 選項開關,只能看看它在 DLSS 3 下的表現了。
在 4K 解析度 + 最高畫質,遊戲平均幀數為 135 幀,1% Low 幀為 100 幀;
在 4K 解析度 + 最高畫質 + DLSS 質量 + 幀生成,遊戲平均幀數為 214 幀,1% Low 幀 121 幀;
作為一款最佳化非常出色的遊戲,RTX 5080 在 4K 解析度下不開光追和 DLSS 選項,都能得到超過 130 幀的平均幀數,無雙割草的體驗感拉滿。
五、DLSS 4 遊戲體驗
其實 RTX 40 系列所支援的 DLSS 3 技術,實際展現出的遊戲幀率提升效果就已然十分卓越。而 DLSS 4 技術則是在 DLSS 3 的基礎上,進一步挖掘並提升了幀生成的效能潛力。它運用了全新的多幀生成技術,藉助第五代 Tensor Core 的強勁效能,透過 AI 光流網路 + Tensor 代替了 OFA,每幀之間最多可以連續插幀三次,進而顯著提升遊戲的 FPS。
DLSS 4 可以與光線重建、超解析度以及 DLAA 等一系列 DLSS 技術協同工作,最高可使遊戲幀率達到傳統影象渲染方式的 8 倍。當玩家在遊戲中啟用 DLSS 4 技術,搭配 RTX 5080 顯示卡,便能夠輕鬆實現開啟全景光線追蹤的 4K 解析度高幀率遊戲體驗。
多幀生成技術能夠與 NVIDIA Reflex 低延遲技術協同工作,有效維持較低的遊戲延遲,將其對遊戲操作與響應的影響降至最低。要知道,GPU 在對每個渲染幀進行計算時,需要涉及超解析度、光線重建以及多幀生成等多個維度的運算,這使得延遲的增加幾乎難以避免。
然而,得益於 GeForce RTX 50 系列所配備的第 5 代 Tensor Core,其 AI 處理效能相比前代提升了 2.5 倍,從而極大地抑制了遊戲延遲的增長幅度。遊戲延遲的實際變化究竟如何,我們將在後續的遊戲例項演示中為大家詳細呈現。
Blackwell 顯示引擎對於 DLSS 4 技術而言意義重大,它能夠提升畫素處理能力,從而助力遊戲在更高解析度和重新整理率的條件下適配 DLSS 4 技術,其畫素處理能力最高可實現翻倍提升。
DLSS 4 技術實現了模型架構的重大革新。DLSS 光線重建、DLSS 超解析度以及 DLAA 這些特性,均由首個實時 Transformer 模型驅動,該模型旨在提升生成畫素的質量。它能夠藉助自注意力操作,對一幀或多幀畫面中的每個畫素的重要程度進行評估,從而更好地理解場景中的各種關係。透過這種方式,生成的畫素穩定性更佳,偽影更少,同時在運動細節的呈現上更為豐富,邊緣也更加平滑。
NVIDIA 宣稱,當下已有超 75 款支援 DLSS 幀生成技術的遊戲與應用,在 GeForce RTX 50 系列 GPU 上可升級為 DLSS 4 多幀生成技術。50 系顯示卡正式發售後不久,眾多主流 3A 大作也將適配 DLSS 4,其中涵蓋《心靈殺手 2》《奪寶奇兵:古老之圈》《真三國無雙:起源》《黑神話:悟空》《星球大戰:亡命之徒》以及《寂靜嶺 2:重製版》等熱門遊戲。
《賽博朋克:2077》目前的 steam 測試版已支援 DLSS 4,我們透過它來了解下 DLSS 4 的實際體驗。如果是 4K 解析度 + 超級畫質,不開光追和 DLSS,遊戲平均幀數的表現還可以,能達到 71.25 幀。
接著我們看下多幀生成的選項,開啟幀生成選項後,下面多出了一個多幀生成的倍率選擇項,即 DLSS Multi Frame Generation,可選擇 2x、3x 和 4x 這 3 種生成倍率。
我們依次在 4K 解析度 + 超級光追畫質 + DLSS 效能設定下,選擇 2x、3x 和 4x 多幀生成,執行遊戲基準測試,分別得到了 144.96 幀、201.31 幀和 248.25 幀的遊戲平均幀數,2x 和 3x 多幀生成的表現,非常接近 71.25 幀的 2 倍和 3 倍幀數,在 4K 解析度的條件下,透過 4x 多幀生成技術所達成的 248.25 幀的體驗。這一幀率水平遠超預期,畫面流暢度極高。
當我們進一步切換到超速光追畫質 + DLSS 4 多幀生成時,遊戲平均幀數分別也有 103.80 幀、146.30 幀、183.75 幀。對於硬體效能要求極高的一款 3A 遊戲中,我們竟獲得了前所未有的遊戲效能體驗。不得不說,DLSS 4 技術的出現,完全打破了大家以往對遊戲效能的固有認知。
當然,無論是何種形式的插幀,延遲的增加都不可避免,所以我們也實測了關閉和開啟多幀生成後的延遲表現。在關閉幀生成選項的情況下,同一場景下 4K 超速光追畫質的遊戲平均延為 26s。依舊在同一場景下分別開啟 2x、3x 和 4x 多幀生成,遊戲平均延遲分別為 42ms、46ms 和 47ms。
如此看來相比開啟幀生成之前,延遲的確有一定的增加。不過隨後的 3x 和 4x 多幀生成延遲依次遞增 4ms、1ms,總體延遲都控制在 50ms 以內,對於非競技類單機遊戲來說這個表現完全可以接受。
針對目前 DLSS 4 適配遊戲較少的問題,英偉達推出了 DLSS Override 功能進行緩解,這個功能能讓支援 DLSS 且還沒有適配 DLSS 4 的遊戲獲得 DLSS 4 的幀生成和超分體驗。
我們以《漫威爭鋒》為例,在 4K 解析度 + 高畫質 + 關閉 DLSS 情況下,遊戲平均幀數 147 幀,1% Low 幀 97 幀,遊戲平均延遲 15ms;
在 4K 解析度 + 高畫質 + DLSS 質量檔,遊戲平均幀數 203 幀,1% Low 幀 131 幀,遊戲平均延遲 23ms;
在同樣情境下,啟用 DLSS Override,並將 DLSS 4 幀生成設定為 X4 後,遊戲平均幀數 367 幀,1% Low 幀 203 幀,遊戲平均延遲 36ms。遊戲幀率得到大幅度提升,體驗和原生適配 DLSS 4 已經很接近了。
除 DLSS 4 技術外,新一代 NVIDIA Reflex 2 低延遲技術進一步降低遊戲延遲,提升操作手感與響應速度。過去四年,NVIDIA Reflex 已整合超 100 款遊戲,能將 PC 延遲降低 50%。新 Reflex 2 採用 Reflex Frame Warp 技術,透過及時同步最新滑鼠輸入指令與渲染幀,實時重新整理、控制遊戲幀,實現定製化低延遲調整。NVIDIA Reflex 2 將在未來不僅支援主流競技遊戲和動作遊戲,如《無畏契約》等。相信透過這一技術,開啟 DLSS 4 之後的遊戲低延遲表現會更加出色。
六、生產力
生產力方面,IT之家實測了 UL Procyon 的影象影象編輯、影片剪輯、以及 AI 文字撰寫等效能。在影象編輯上,RTX 5080 配合 AMD 9800X3D 獲得了 8686 分。
在影片剪輯效能測試中我們開啟了 GPU 加速,得益於 RTX 5080 Blackwell 架構的第九代 NVENC,其在 H.264 / H.265 4:2:2 編碼的 8 位和 10 位影片上有著非常大的優勢,最終獲得了 62633 分。
最後是考驗 AI 效能的大語言模型測試,面對 7B 引數量的 LLAMA 2 模型平均 OTS 也有著 83.48tokens / s,十分出色。
七、總結
在這次對 NVIDIA GeForce RTX 5080 的首次測試中,我們獲得了極為深刻的印象。特別是在第五代 Tensor Core 與 DLSS 4 技術的雙重助力下,遊戲效能的提升十分顯著,遊戲幀數成倍增長變得輕而易舉。而且,在實際體驗過程中,雖伴隨一定的延遲增加與畫質損失,但這樣的代價完全在可接受範圍內。
可以預見,隨著 DLSS 4 技術的應用,顯示卡的遊戲效能將開啟一個全新的時代。這不僅會為廣大玩家帶來更流暢、更精彩的遊戲體驗,對於遊戲開發者而言,也提供了更廣闊的創作空間,能夠開發出畫面更精美、執行更流暢的遊戲作品。