自從在10月份釋出了搭載M4 Pro和M4 Max的MacBook Pro後,M4系列晶片的效能表現就引起了很多關注。但是,瞭解蘋果產品線的朋友都知道,M4系列還有一個隱藏BOSS——M4 Ultra尚未釋出。
雖然Ultra型號缺席了前代M3系列,但是M2 Ultra的效能卻給大家留下了深刻印象,加上很早之前就曝光M4 Ultra已經流片,無疑讓人們對這顆蘋果的真·旗艦晶片效能有了很大期待。
在海外媒體的推算中,如果M4 Ultra採用與M2 Ultra相似的架構設計,也就是將兩個Max版晶片透過UltraFusion封裝技術連線在一起,那麼M4 Ultra的GPU效能應該會是M4 Max的1.7倍左右。
再結合M4 Max在Geekbench 6的GPU測試中得到的197754分,M4 Ultra的GPU測試得分大機率會在330000左右,作為對比,目前消費級的最強顯示卡RTX 4090得分也只有310000-320000。
圖源:Max Tech
M4 Ultra爆殺RTX 4090?這個訊息恐怕老黃看了都要做噩夢,不過也有人提出疑問:M4 Ultra的GPU真的能有這麼高的效能嗎?在實際使用場景中真的能媲美RTX 4090嗎?
M4 Ultra跑分曝光,到底有多強?
M4 Ultra雖然還未釋出,但是我們可以從已經發布的M4 Pro和M4 Max上一窺這個系列晶片的效能表現。如果單看Geekbench 6的測試結果,你會發現M4 Pro的得分屬實恐怖,在單核測試中以3925的成績超越了AMD和英特爾的最新桌面端旗艦處理器,而在多核測試裡,也明顯領先Ryzen 9 9950X,僅略輸於酷睿Ultra 9 285K。
圖源:Max Tech
至於效能定位更高的M4 Max,則是在單核、多核測試中均碾壓了Ryzen 9 9950X和酷睿Ultra 9 285K,讓整個PC市場感受到了蘋果的強大。而且,在測試中M4系列晶片的核心主頻及核心數都明顯低於兩個對手,只有4.5GHz,但是卻展現了更高的單核及多核效能。
圖源:Max Tech
可怕嗎?很可怕。要知道酷睿Ultra 9 285K和Ryzen 9 9950X都是桌面端處理器,滿載功耗均超過200W,而M4 Pro和M4 Max卻是MacBook Pro的移動端晶片,足見其能效比之高。
以目前M4 Max的效能推算,採用兩顆M4 Max晶片組合而成的M4 Ultra在多核效能上或將達到45000分,是酷睿Ultra 9 285K的兩倍。單核效能則一般不會有太大提升,不過仍然會高於M4 Max,成為目前消費級市場的最強處理器。
M4 Ultra GPU一舉超越英偉達RTX 4090
再來看看GPU效能,曝光稱其跑分會超過RTX 4090,而依據則是Geekbench 6的GPU測試,這個測試涉及GPU的影象處理、計算攝像、機器學習、物理模擬和計算金融五個模組,並不單單測試遊戲效能,這就給了M4 Ultra更多的得分空間。
所以,結合目前實測的M4 Max GPU效能資料,這個推測是有一定道理的,在極客灣的實測中,M4 Max的AI大模型計算效能已經達到RTX 4090的60%。甚至可以在RTX 4090因為爆視訊記憶體而效能暴跌的情況下, 藉助128G統一記憶體的優勢繼續流暢執行更大引數量的AI模型。
圖源:極客灣
這也意味著,只要M4 Ultra的架構不發生根本性變化,至少在AI計算等方面的效能是可以超越RTX 4090,成為消費級最強的AI GPU。
那麼遊戲方面呢?從目前的實測結果來看,M4 Ultra的遊戲效能肯定無法與RTX 4090相比的,因為即使是執行原生Mac遊戲《博德之門3》,高解析度下幀數也只是比RTX 4070移動版略高30%,尚未達到RTX 4080移動版的水平。
而在3DMark的測試中,RTX 4090桌面端的效能約為RTX 4080移動端的兩倍,這也意味著M4 Ultra在最理想狀態下,遊戲效能也只能達到RTX 4090的75%左右。不過若是對比移動端的RTX 4090,那麼倒是有機會反超,畢竟移動端RTX 4090本質上就是RTX 4080桌面端,差距還是非常明顯的。
另外,如果是非原生遊戲,那麼GPU的效能還會受到明顯的削弱,實測中幀數直接從領先RTX 4070移動版30%變成落後30%甚至50%,這時候別說挑戰RTX 4090了,可以直接考慮和RTX 4060坐一桌。
對於想用M4 Ultra打遊戲的朋友來說,個人建議是不如拿一萬裝臺遊戲電腦,體驗會比M4 Ultra好很多。但是如果你的需求是用來跑本地AI大模型、影片剪輯、模型渲染等,那麼M4 Ultra的表現或許會超過目前最強的消費級PC也說不定,對於英偉達和AMD的消費級GPU市場部門來說,這並不是一個好訊息。
「蘋果芯」跑分屢創新高,Arm是關鍵
蘋果的自研M系列晶片跑分屢創新高,著實讓英特爾、AMD等傳統半導體廠商冷汗直冒,甚至不得不聯手成立x86架構生態小組,共同探討x86架構的未來,能讓兩個曾經的死對頭聯手,可想而知Arm帶來的壓力有多大。
實際上很多人也好奇,為什麼Arm架構晶片的能效比可以如此驚人?其實關鍵就在於指令集上,Arm的指令集相較於x86要精簡很多。
你可以將x86看作是一臺複雜的多功能卡車,它可以一次性處理大量的資料和任務,但是在面對簡單任務時,複雜且龐大的指令集也讓其難以降低自己的資源佔用率。而Arm則是摩托車,雖然每次只能執行單個任務和少量資料,但是可以透過靈活的車輛排程,分配執行任務的最佳車輛數,讓Arm晶片在執行時有著更好地能效。
基於Arm架構的特性,蘋果等企業很快就意識到透過增加核心數(準備更多的摩托)和最佳化指令集(專車專用提升效率),就可以讓Arm晶片在效能上取得突破,Arm指令集的高能效比也讓Arm晶片可以輕鬆堆砌大量核心,而不用過多的考慮功耗問題。
此外,Arm架構的靈活性,讓蘋果可以根據需求定製化設計專門的模組負責對應的任務,使得晶片效率進一步提升,加上統一記憶體架構帶來的低延遲特性,讓M系列晶片的整體執行效率遠端傳統晶片。
圖源:蘋果
得益於多項最佳化,量變最終引起了質變,讓Arm晶片成功在單核及多核效能上都超越了傳統x86晶片,成為PC市場的新興勢力,而不再是固守在移動裝置市場。而且,蘋果很快就發現這個套路在GPU上也同樣可行,透過堆砌核心數的方式讓GPU效能同樣進入爆發式增長。
以M4 Pro和M4 Max為例,前者的GPU核心數為20個,後者則是40個,而在實際測試中,後者的各項效能基本上就是前者的兩倍。理論上,只要蘋果願意,在達到晶片內部延遲的上限之前可以無限堆疊核心,打造更強的GPU。
圖源:蘋果
不過蘋果本身並非半導體企業,其晶片設計更多的是為產品服務,所以並不會像英偉達、AMD那樣為了銷售晶片而設計出功耗、效能都「爆炸」的產品。但是蘋果不這麼做,不代表其他企業也這麼想,比如高通就一直在關注Arm GPU和CPU,除了消費端,伺服器和資料中心同樣是高通的目標市場。
在2024年,高通就宣佈重回伺服器晶片市場,推出基於Nuvia核心設計的伺服器晶片,截止目前為止,相關機構預估伺服器市場的Arm晶片佔比已經達到10%。其中不少AI算力中心都有增加Arm GPU算力伺服器的計劃,因為Arm的高能效可以顯著降低AI推理時的電力成本,進而降低單位算力的成本。
正是因為Arm架構所帶來的巨大威脅,前段時間英特爾與AMD簽署合作協議時,英偉達也同樣到場,並且同為生態小組的合作企業之一。目前,對於英偉達等企業來說,最好的訊息是蘋果無意參與到半導體晶片市場中,而壞訊息則是,高通的Nuvia核心表現不錯,恐怕會成為GPU市場的一匹黑馬。
可以預見的是,在未來的PC市場中,Arm必然會有一席之地,並且有望徹底挑戰x86架構和英偉達的市場地位。