快科技12月3日訊息,Intel今天正式釋出了代號Battlemage的第二代銳炫B系列顯示卡,首發兩型號銳炫B580、B570,而此時距離第一代A系列最初登場已經兩年多了。
兩款新品定位主流市場,主要面向2K超高畫質遊戲玩家,大致對標NVIDIA RTX 4060系列、AMD RX 7600系列。
因為根據Intel提供的資料,1080p在遊戲玩家中的佔比逐年遞減,如今已經降至56%,2K解析度則增長到了22%,預計到2026年即可實現反超。
這一代,Intel主打三個亮點:最佳價效比、XeSS 2、AI加速。我們會逐一和大家介紹。
新的Xe2架構在前代Xe基礎上進行大量的最佳化改進,尤其是投入了大量精力對架構的相容性和軟體開銷進行重構和最佳化。
Xe2不僅進一步提升了軟體的適配性,還增強了架構的效率,提高了資源利用率,特別是減輕了軟體對硬體的開銷。
先來看一下兩款新卡的公版規格,後邊再講架構和技術。
銳炫B580配備了20個新一代Xe2核心(分為5個切片),對比上代A580反而少了4個核心與1個切片,同時有20個光追單元、160個XXM AI引擎。
不過,核心頻率從1700MHz大幅提高到2670MHz,彌補了核心數量的不足,INT8算力效能從197 TOPS來到了233 TOPS,提升幅度約18%。
視訊記憶體位寬從256-bit降至192-bit,但是容量從8GB GDDR6擴大到12GB GDDR6,等效頻率也從16GHz提高到19GHz,因此頻寬從512GB/s略微降至456GB/s。
整卡功耗190W,只增加了區區5W,從而大大提高了能效比,只需單個8針供電。
銳炫B570做了一部分精簡,配備18個Xe2核心、18個光追單元、144個XMX引擎,核心頻率略降至2500MHz,INT8算力效能203 TOPS。
搭配160-bit 10GB GDDR6視訊記憶體,等效頻率依然是19GHz,頻寬380GB/s,整卡功耗僅為150W。
系統匯流排介面很遺憾並不是PCIe 5.0,而且從PCIe 4.0 x16砍半為PCIe 4.0 x8,當然對這種級別的卡來說影響可以忽略不計。
硬體解碼支援AV1、HEVC(H.265)、AVC(H.264)、VP9、XAVC-H,但是不支援更新的VVC(H.266)。
影片輸出支援HDMI 2.1、DisplayPort 2.1 UHBR 13.5——上代是DP 2.0 UHBR 10。
官方宣稱,銳炫B580對比定位更高的銳炫A750,平均效能提升幅度可達24%。
特別是開啟XeSS之後,提升更加明顯,《堡壘之夜》甚至可達78%,《刺客信條:幻景》也能有56%。
對比競品RTX 4060,平均領先幅度為10%,考慮到種種因素,可以大致視為二者基本在同一檔次,和RX 7600也基本差不多。
沒有達到之前預期的RTX 4060 Ti的水平,有點小遺憾。
不過無論對比RTX 4060還是RX 7600,銳炫B580的一個顯著優勢就是視訊記憶體多了一半,在遊戲中更不容易爆視訊記憶體,執行AI負載時也更有餘力。
這一次,Intel依然打造了官方公版,也就是限量版。
仍舊是雙風扇、雙插槽、黑色風格,重點優化了散熱設計,背面有一半都做了散熱格柵,風流更大,噪音也更低。
首批合作伙伴除了老朋友宏碁、華擎、藍戟、旌宇,還新增了兩家,一是常年主打高性價比的銘瑄,二是新的傲世創科(Onix)。
各品牌普遍都做了雙風扇、三風扇兩種設計,除了宏碁暫時只有一款雙風扇,傲世創科則都是雙風扇。
銳炫B580顯示卡將於12月13日正式上市(12日晚評測解禁),定價249美元起。
要知道,銳炫A750兩年多前首發的時候,還是要289美元。
銳炫B570顯示卡則要等到明年1月16日才會開賣,定價219美元起。
其實,Lunar Lake即酷睿Ultra 200V系列處理器中已經率先應用Xe2架構的核顯,也就是銳炫140V、銳炫130V,如今終於來到了桌面獨立顯示卡,未來還會陸續進入筆記本獨立顯示卡、車載方案、嵌入式方案等。
Intel表示,Xe2架構相對於初代,重點就是提升各方面的效率,包括更高的利用率、更好的負載分配、更好的軟體開銷等等。
同時,Xe架構誕生兩年多來,Intel一直在努力完善驅動、遊戲的生態支援,先後迭代了50多個版本的驅動,新遊戲0日支援超過120款,遊戲適配最佳化數量也比當初增加了2.5倍。
這就是Xe2的整體架構圖,主體依然是渲染切片,這是整個SoC晶片的基本結構,配合指令前端、二級快取構成一個整體,和第一代如出一轍,基本沒啥變化。
每個渲染切片內包含4個Xe核心(計算引擎)、4個光追單元,以及4個取樣器、幾何單元、光柵單元、HiZ單元(層次Z)、兩個畫素後端等模組。
各個部分的具體變化,下邊拆開來講。
二代Xe2核心除了繼續原生支援SIMD16指令,還增加了對SIMD32的支援,雖然不是原生,但執行SIMD32指令是沒問題的,從而能夠更好地分配計算資源,還支援64位原子操作。
每個Xe核心內部,包含8個512位的向量引擎(XVE)、8個2048位的XMX引擎,比上代減少了足足一半,可能排程效率會更高、更靈活。
這一次,Intel為每個Xe核心加入了多達256KB容量的一級快取、本地共享快取(SLM),大大減輕了對二級快取的依賴。
XVE向量引擎除了支援SIMD16/SIMD32,還支援矩陣擴充套件,包括INT2、INT4、INT8、FP16、BF16、TF32等資料型別,其中TF32是針對AI最佳化的資料格式還擴充套件了Math、FP64支援。
另外,它還支援三路併發,包括FP、INT/EM、XMX,指令排程和執行效率更高。
對比初代,XVE引擎現在更小巧(基本可以視為砍半),應該也會更靈活。
光追部分,Intel也做了大刀闊斧地改進,整體結構沒太大變化,但是規模和效能高得多,比如遍歷流水線從2條增至3條、方盒相交增大1.5倍、三角形相交增大2倍、BVH(包圍盒層次結構)快取增大2倍來到16KB。
這樣的規模當然遠遠沒法和NVIDIA相比,甚至不如AMD,但提升也是相當明顯的,應該能夠達到基本可用的水平,當然更有賴於遊戲的適配和最佳化。
媒體引擎包含兩個相同的多媒體解碼器(MFX),但注意它和Lunar Lake裡整合的核顯媒體引擎略有不同,沒有XMX硬體編解碼單元,因此不支援VVC(H.266)硬解碼。
這就是BMG-G21,二代銳炫顯示卡首發的GPU核心晶片。
它總共有5個渲染切片、20個Xe2核心、20個光追單元、160個XMX引擎、20個紋理取樣器、10個畫素後端,以及2個多格式X編解碼器,還有多達18MB二級快取、192位視訊記憶體。
各家的GPU架構設計不同,所以核心規模不具備直接可比性,但如果將這些與NVIDIA GPU類比,那就相當於80個ROP光柵單元、160個TMU紋理單元。
這是因為,紋理取樣器轉換為TMU的比例是1:8,畫素後端與ROP的轉換比例同樣是1:8。
按照Intel的首發,經過最佳化的第二代Xe核心,效能提高了70%,能效提高了50%。
而在一組微基準測試中,效能提升幅度最高可達驚人的12.5倍。
比如在《堡壘之夜》中,上圖白線代表銳炫A系列,藍線代表銳炫B系列,單位是毫秒,時間則越短越好。
銳炫A系列執行一幀渲染的時間為19.33毫秒,銳炫B系列則縮短到了13.01毫秒。
關鍵是,每一個渲染環節的效率都更高了,比如直接執行節省了1.1毫秒,間接執行節省了1.5毫秒等。
這也就證明,銳炫B系列的每一個地方都做了微架構最佳化,都可以節省渲染時間,從而提升渲染效率和效能。
隨著圖形技術的進步,單純的渲染已經不足以反應GPU計算能力,也無法做到顯著提升效能,AI渲染就越來越普遍。
XeSS就是Intel打造的AI超分解決方案,對標NVIDIA DLSS、AMD FSR,在較低解析度的畫面幀的基礎上,提取運動向量,使用超解析度技術進行放大和加速,從而生成更高質量的影象。
官方號稱,在2K超高畫質遊戲中,XeSS可以帶來22-80%的效能提升,尤其是在光追等畫素生成較為困難的場景中效果更明顯。
經過不斷努力,Intel XeSS已經有超過150款遊戲支援,初具規模。
如今,XeSS終於升級為第二代,SR超分技術基礎上增加了兩項新技術:XeSS FG幀生成技術,提升畫面質量與幀率;XeLL低延遲技術,提升響應速度。
XeSS FG幀生成技術的工作原理是:首先使用遊戲引擎,原生渲染出第一幀和第二幀,然後透過插幀技術和AI演算法,生成二者之間的中間幀並插入。
為了實現這一目標,Intel採用了兩種技術,分別是光流重投影技術、運動向量重投影技術,二者結合以確保插幀的準確性、畫面的流暢性。
不過不同於NVIDIA RTX 40系列,Intel不需要單獨的光流加速器硬體,至於是否支援NVIDIA、AMD的顯示卡還在評估。
目前暫時還沒有支援XeSS FG幀生成的遊戲,畢竟剛剛宣佈,但是《F1 24》等遊戲已經在積極開發整合,UE等遊戲引擎也可以透過外掛支援。
當然,XeSS SR超分、XeSS FG幀生成兩項技術也是可以一起使用的。
XeSS SR渲染一個稍低解析度的畫面幀,並將它放大,在送到XeSS FG插幀裡,實現幀率翻倍。
比如《F1 24》,可以看到XeSS 2的效能提升是非常顯著的,遠超初代XeSS。
2K超高畫質下,銳炫B580的基準幀率為48FPS,開啟XeSS 2質量模式就能提升至2.8倍,不但比初代XeSS高了超過65%,甚至超過了XeSS SR超高效能模式。
依次開啟XeSS 2平衡模式、效能模式、超高效能模式,幀率還可以逐步提升,最終高達186FPS,是原生效能的幾乎4倍。
介紹XeLL低延遲技術之前,先回顧一下PC遊戲中的系統延遲怎麼來的。
這個過程始於玩家點選滑鼠的動作,一直持續到畫面最終顯示在螢幕上,這個過程所需要的時間,就是我們說的延遲。
具體來說,玩家操作的訊號首先傳遞給CPU,隨後進入一個稱作渲染佇列的環節,然後GPU將這些指令轉換成螢幕上的畫素,最後這些畫素構成的影象呈現在顯示器上。
整個流程中的每一步都可能增加延遲,累積起來就是我們在遊戲中感受到的卡頓現象。
為了儘可能降低延遲,NVIDIA打造了Reflex技術,AMD則推出了兩代Anti-Lag,現在輪到了Intel XeLL。
XeLL重點針對CPU渲染佇列等待過程,基本消除了它,從而大大縮短了從滑鼠點選到螢幕顯示的整個過程。
Intel PresentMon工具已經可以顯示具體延遲,方便玩家測量從滑鼠輸入到系統顯示的整個延遲時間。
同時,Intel內部還開發了延遲測量工具(LMT),基於微控制器的一款特殊裝置。
實際效能如何呢?還是以《F1 24》為例。
原生渲染時,48FPS幀率的延遲是57毫秒,而在開啟XeLL之後,延遲降低到了32毫秒,改善了多達45%。
更神奇的是,如果把XeSS SR、FG、XeLL低延遲全部開啟,可以把延遲降至28毫秒,改善51%,同時幀率高達152FPS,提升2.17倍。
當然,也可以只開啟SR、低延遲,此時延遲僅有19ms,改善足有67%,而幀率為90FPS,仍有原生渲染的接近2倍。
XeLL低延遲技術是基於驅動程式實現的,因此效果不是最好的,但很容易整合到遊戲中。
首發支援的有《F1 24》、《漫威暗夜之子》、《刺客信條:幻景》等等,未來還會有更多加入。
AI,尤其是生成式AI,是如今GPU繞不開的話題,銳炫B系列也透過增強的XMX引擎,提供了更好的支援。
銳炫B580對比RTX 4060,執行常見的Llama 2、Llama 3.1、Mistral、Phi-3等大型語言模型,都有相當大的效能優勢,最多領先約50%。
Intel之前還推出了一個免費的生成式AI工具AI Playground 2.0,專為Xe2架構而來(包括核顯)。
它允許使用者在本地端側體驗影象建立、編輯、AI對話等,下載模型即可體驗,無需連線雲端。
好的顯示卡,除了好的硬體架構技術,更離不開好的驅動,Intel也在持續完善,功能不斷豐富,無論是圖形設定、3D設定,還是超頻,該有的都有。
說到超頻,銳炫B系列當然也可以,而且更簡單,在驅動中開啟高階模式即可操作。
上圖中,淺藍色顯示的是預設頻率和電壓曲線,玩家可以向上推動該曲線,從而提升頻率,獲得更高的效能。
玩家還可以使用電壓偏移來改變電壓,並訪問更多電壓點,這一切都實時可見。
電壓、功耗都可以設定一定的最高閾值,確保安全超頻。
以銳炫B580為例,預設狀態下即可輕鬆超頻200MHz;增加20%功耗可以再超200MHz;繼續增加25%電壓還能繼續超200MHz。
當然,具體超頻幅度和電壓、功耗設定,取決於顯示卡的不同個體體質,以及散熱等外部因素。