在RTX 40系顯示卡釋出快兩年半之後,本月30號,RTX 5090D終於要上市了。
伴隨著月初CES開幕式上老黃首次揭曉50系,全網都在討論這張新顯示卡以及一同釋出的DLSS 4。NVIDIA公佈的資料裡,DLSS 4能讓一些遊戲的幀數提升到8倍之多,不免讓人擔心在超高幀數背後,畫面和延遲上支付的相應代價。
帶著同樣的疑問,我們對一張七彩虹的RTX 5090D Advanced進行了詳細的測試,接下來就和大家分享一下幾天測試的感受。
首先是大家最關心的顯示卡硬體方面。RTX 5090D採用了Blackwell的新架構。
全新的GB202晶片仍然使用了臺積電4nm工藝,完整核心具備24576個CUDA,而RTX 5090D開放了其中21760個,基礎頻率2.01GHz,加速頻率2.41GHz;它還搭載了第四代RT CORE(318 TFLOPS)和第五代Tensor Core(2375 AI TOPS),視訊記憶體升級到了32GB GDDR7,具有512-bit的位寬和1792GB/sec的頻寬。
這次硬體引數上的提升不算小,但和RTX 3090到RTX 4090的跨度相比又小了些。從NVIDIA公佈的檔案就能明白,新顯示卡的很多升級是在為AI鋪路。雖然在引數上看不見摸不著,會被部分玩家揶揄為“戰未來”,但在光追、材質紋理和圖層上色等方面我們已經能看見它的成效——後文裡會詳細介紹。
功耗方面RTX 5090D的TDP是575W,室溫25度,單烤顯示卡半小時後的核心溫度為70度,視訊記憶體76度。散熱基本上不是問題,只需要擔心自己的電源是否還撐得住——因為這已經比很多電腦的整機功耗還大了。
後面的跑分測試環節,我們搭配的CPU是intel 13900K,記憶體為96GB DDR5 6400MHz。在3DMark基準測試下,RTX 5090D的分數對比RTX 4090D提升在40%左右,與CUDA核心的增量基本一致,證明了RTX 5090 D本身的強勁遊戲效能。
同時在3D設計和渲染領域裡,RTX 5090D在blender benchmark 4.3.0版本中的測試總分為15038.4,相較RTX 4090 D提升43%;RTX 5090 D在V-Ray 6.0中的得分則是15131 vpaths,比RTX 4090D高出38%。這基本代表了RTX 5090D在數字設計生產力方面的效能,有著中規中矩的效能提升。
放到實際的遊戲中,RTX 5090D的綜合表現基本可以用這一張圖片來概括:
《APEX》終於可以跑滿4K 240幀;《地平線5》依然是超強最佳化,光追畫質全開在不使用DLSS的情況下幀數都超過了200;其他遊戲不開啟DLSS的時候,遊戲的幀數提升也基本與3DMark的測試結果一致。
即便用上了RTX 5090D,想要在所有3A大作裡流暢體驗光追全開的4K最高畫質,DLSS仍舊必不可少。
《黑神話:悟空》作為新的“重點測試遊戲”,在4K最高畫質、光追全開且不使用DLSS超解析度和幀生成時,只有32FPS。而在開啟DLSS 3到效能模式,開啟幀生成後,遊戲幀數來到了132FPS,但遊戲畫面的細節會有比較明顯的模糊。
相比之下,將畫面調整為高畫質、光追關閉能獲得一個比較折中的遊戲體驗。光追對於《黑神話:悟空》的畫面的加成其實並不多,高畫質預設下的遊戲畫面也足夠細緻,接近90FPS已經是足夠暢玩的設定了。
相比之下,沒有光追的《使命召喚:黑色行動6》最高畫質的幀數91 FPS還算可以接受。而且在實際遊戲裡,我這樣的PvP玩家都會把很多設定調低,不需要DLSS遊戲也能十分流暢的執行。但如果一定要用最高畫質遊玩,那麼開啟DLSS超分到效能模式,體驗也很不錯,在畫面幾乎沒有損失的情況下,幀數提升了70%。
然後就是重頭戲DLSS 4的測試了。DLSS 4最重要的升級是DLSS多幀生成,以及為超解析度、光線重建、DLAA引入Transformer模型,一個在生成式AI上被廣泛使用的強大模型,從而進一步提升RTX20、30、40、50系顯示卡的DLSS效能體驗。
對於超解析度,新模型可以直接分析整個畫面,精確找到畫面變動的關鍵位置再進行分析計算,而不是和CNN一樣將畫面切塊再卷積取平均後分析。所以新模型關聯前後畫面的能力才會遠超CNN,生成的影象精度更高,也減少甚至避免了一些細小物體高速移動造成的頻閃問題。
Transformer模型也能分析畫面中哪些區域的光線重建需要更多的樣本,動態引導光追核心將有限的算力合理分配,達到更好的畫面效果。
此外,MFG多幀生成技術也是DLSS 4另一個重大提升的來源。
DLSS 3的幀生成,需要採集遊戲中的運動向量和場景深度資訊,經由顯示卡的光流加速器計算光流場來生成一幀;而DLSS 4的多幀生成不再需要光流加速器,而是用AI模型計算出光流,一幀原生渲染幀支援最多生成三幀。就算一次4X(1渲3)插幀需要5次模型運算,但也比之前的幀生成效果要好、延遲更低。
對於大家擔心的多幀生成卡頓的問題,DLSS 4使用了新的Flip Metering硬體來應對。
它可以更合理地控制幀上屏的時機。此前的幀上屏的控制需要CPU處理,存在較大的誤差,最終雖然幀數提升了,但實際遊戲體驗會感覺卡卡的;而新技術把上屏控制的權力交回給了GPU,接收到CPU每幀生成的指令後,顯示卡就不用再與CPU進行確認,可以自行控制幀間的間隔,從而令多幀顯示平順絲滑。
上面關於超分和光線重建的升級適用於所有RTX顯示卡,其中RTX 40系可以使用全新的DLSS 3幀生成模型,只是無法使用多幀生成,RTX 50系則可以使用全新的多幀生成模型。
這樣說起來的話,在開啟DLSS 4超分效能模式,多幀生成一渲三後,遊戲平均每4幀畫面只有1/4幀是原生的,那麼畫面裡15/16的畫素點內容其實都是由AI算出來的。
在幾款已經有DLSS 4支援的遊戲的測試資料裡,可以看出在4K最高畫質光追全開時,遊戲開啟DLSS 4多幀生成確實讓幀數提升了3到8倍不等,又因為超分提高了原生幀的基礎幀率,再加上Reflex技術,遊戲延遲也都更低了。
在AI的幫助下,《賽博朋克2077》終於透過各種手段在4K最高畫質光追全開下,跑到240以上的幀數了。
不過光是算得快沒用,算得準對於遊戲畫面來說更加重要,我們也對開關DLSS前後的畫面進行了對比。
首先是2077的三組對比,不得不說我被對比結果驚豔到了。尤其是第三張水面的倒影,超分後的畫面甚至比原生還要清晰,這應該就是光線重建帶來的增益。實際遊玩時也很順滑,對於一款單機遊戲來說它的體驗完全沒問題。
另外幾款遊戲的情況也基本相同,開啟DLSS 4後畫面均沒有明顯的變化,但幀數卻得到了成倍的提升,遊玩體驗能好上不少。
但在一些細節——比如主角的紋身,在開啟DLSS後會變得有些模糊,還有一些牆上的塗鴉和海報也有類似問題,但好在都不影響遊玩的體驗。
幾番測試下來,DLSS 4比之DLSS 3的進步非常明顯,而且能非常穩定地使用了。就算大部分畫素都是“拼好幀”拼出來的,但新模型的超解析度確實給遊戲提供了更好的畫質體驗。
不過對於FPS電競遊戲來說,他們對畫面延遲的要求會更高。
隨著RTX 50系顯示卡的上市,此前用來降低延遲的Reflex也迎來了它的升級版Reflex 2。在初代技術移除渲染佇列和增強GPU高頻待機的基礎上,Reflex 2新增了Frame Warp技術,會根據滑鼠輸入的即時資料,並根據遊戲內視角變化直接將已經渲染好的幀直接偏移一下就拿來使用,最大限度降低延遲,讓玩家指哪打哪。
畫面更改過程中本來沒有渲染的部分(下圖中的白色部分),顯示卡會用演算法將畫面補全,這樣我們最終看到的畫面就是完整的了。
這聽上去挺魔幻的,因為遊戲裡畫面邊緣的畫素是沒有經過完整渲染流程的。不過這種操作透過演算法將遊戲內的位置資訊、顏色、視角等資訊進行了綜合分析,加上超高的運算速度,實際效果相當值得期待 。
目前Reflex 2只宣佈了《The Finals》和《無畏契約》兩款即將實裝的遊戲,在開放給RTX 50系使用者嚐嚐鮮後,最終會支援所有RTX顯示卡。到時候FPS玩家就能到遊戲裡,去看看這項“魔幻”的新技術到底好不好用了。
總體而言,RTX 5090 D在光柵效能上有著常規的提升,無論是在遊戲場景還是生產力作業中都有與其定位相符的效能表現。但正像NVIDIA宣傳的那樣,它更大的升級是在軟體層面上,利用AI的不斷進步和AI加速對4K光追遊戲的提升,在《賽博朋克2077》這樣的3A大作上,讓4K240+全景光追成為現實,讓4K 240hz的顯示器買了不吃灰。這無疑是更多玩家所期待看到的。
隨著RTX 5090 D的首發,當日即有75款遊戲支援DLSS 4,並且所有RTX顯示卡使用者都能逐步體驗到大部分功能。這標誌著一個新時代的來臨,讓人期待NV和各路遊戲廠家為我們帶來更好的硬體、技術、畫面,以及更優秀的遊戲。