起猛了！M4 Ultra效能超越RTX 4090，蘋果放大招了？

自從在10月份釋出了搭載M4 Pro和M4 Max的MacBook Pro後，M4系列晶片的效能表現就引起了很多關注。但是，瞭解蘋果產品線的朋友都知道，M4系列還有一個隱藏BOSS——M4 Ultra尚未釋出。

雖然Ultra型號缺席了前代M3系列，但是M2 Ultra的效能卻給大家留下了深刻印象，加上很早之前就曝光M4 Ultra已經流片，無疑讓人們對這顆蘋果的真·旗艦晶片效能有了很大期待。

在海外媒體的推算中，如果M4 Ultra採用與M2 Ultra相似的架構設計，也就是將兩個Max版晶片透過UltraFusion封裝技術連線在一起，那麼M4 Ultra的GPU效能應該會是M4 Max的1.7倍左右。

再結合M4 Max在Geekbench 6的GPU測試中得到的197754分，M4 Ultra的GPU測試得分大機率會在330000左右，作為對比，目前消費級的最強顯示卡RTX 4090得分也只有310000-320000。

圖源：Max Tech

M4 Ultra爆殺RTX 4090？這個訊息恐怕老黃看了都要做噩夢，不過也有人提出疑問：M4 Ultra的GPU真的能有這麼高的效能嗎？在實際使用場景中真的能媲美RTX 4090嗎？

M4 Ultra跑分曝光，到底有多強？

M4 Ultra雖然還未釋出，但是我們可以從已經發布的M4 Pro和M4 Max上一窺這個系列晶片的效能表現。如果單看Geekbench 6的測試結果，你會發現M4 Pro的得分屬實恐怖，在單核測試中以3925的成績超越了AMD和英特爾的最新桌面端旗艦處理器，而在多核測試裡，也明顯領先Ryzen 9 9950X，僅略輸於酷睿Ultra 9 285K。

圖源：Max Tech

至於效能定位更高的M4 Max，則是在單核、多核測試中均碾壓了Ryzen 9 9950X和酷睿Ultra 9 285K，讓整個PC市場感受到了蘋果的強大。而且，在測試中M4系列晶片的核心主頻及核心數都明顯低於兩個對手，只有4.5GHz，但是卻展現了更高的單核及多核效能。

圖源：Max Tech

可怕嗎？很可怕。要知道酷睿Ultra 9 285K和Ryzen 9 9950X都是桌面端處理器，滿載功耗均超過200W，而M4 Pro和M4 Max卻是MacBook Pro的移動端晶片，足見其能效比之高。

以目前M4 Max的效能推算，採用兩顆M4 Max晶片組合而成的M4 Ultra在多核效能上或將達到45000分，是酷睿Ultra 9 285K的兩倍。單核效能則一般不會有太大提升，不過仍然會高於M4 Max，成為目前消費級市場的最強處理器。

M4 Ultra GPU一舉超越英偉達RTX 4090

再來看看GPU效能，曝光稱其跑分會超過RTX 4090，而依據則是Geekbench 6的GPU測試，這個測試涉及GPU的影象處理、計算攝像、機器學習、物理模擬和計算金融五個模組，並不單單測試遊戲效能，這就給了M4 Ultra更多的得分空間。

所以，結合目前實測的M4 Max GPU效能資料，這個推測是有一定道理的，在極客灣的實測中，M4 Max的AI大模型計算效能已經達到RTX 4090的60%。甚至可以在RTX 4090因為爆視訊記憶體而效能暴跌的情況下，藉助128G統一記憶體的優勢繼續流暢執行更大引數量的AI模型。

圖源：極客灣

這也意味著，只要M4 Ultra的架構不發生根本性變化，至少在AI計算等方面的效能是可以超越RTX 4090，成為消費級最強的AI GPU。

那麼遊戲方面呢？從目前的實測結果來看，M4 Ultra的遊戲效能肯定無法與RTX 4090相比的，因為即使是執行原生Mac遊戲《博德之門3》，高解析度下幀數也只是比RTX 4070移動版略高30%，尚未達到RTX 4080移動版的水平。

而在3DMark的測試中，RTX 4090桌面端的效能約為RTX 4080移動端的兩倍，這也意味著M4 Ultra在最理想狀態下，遊戲效能也只能達到RTX 4090的75%左右。不過若是對比移動端的RTX 4090，那麼倒是有機會反超，畢竟移動端RTX 4090本質上就是RTX 4080桌面端，差距還是非常明顯的。

另外，如果是非原生遊戲，那麼GPU的效能還會受到明顯的削弱，實測中幀數直接從領先RTX 4070移動版30%變成落後30%甚至50%，這時候別說挑戰RTX 4090了，可以直接考慮和RTX 4060坐一桌。

對於想用M4 Ultra打遊戲的朋友來說，個人建議是不如拿一萬裝臺遊戲電腦，體驗會比M4 Ultra好很多。但是如果你的需求是用來跑本地AI大模型、影片剪輯、模型渲染等，那麼M4 Ultra的表現或許會超過目前最強的消費級PC也說不定，對於英偉達和AMD的消費級GPU市場部門來說，這並不是一個好訊息。

「蘋果芯」跑分屢創新高，Arm是關鍵

蘋果的自研M系列晶片跑分屢創新高，著實讓英特爾、AMD等傳統半導體廠商冷汗直冒，甚至不得不聯手成立x86架構生態小組，共同探討x86架構的未來，能讓兩個曾經的死對頭聯手，可想而知Arm帶來的壓力有多大。

實際上很多人也好奇，為什麼Arm架構晶片的能效比可以如此驚人？其實關鍵就在於指令集上，Arm的指令集相較於x86要精簡很多。

你可以將x86看作是一臺複雜的多功能卡車，它可以一次性處理大量的資料和任務，但是在面對簡單任務時，複雜且龐大的指令集也讓其難以降低自己的資源佔用率。而Arm則是摩托車，雖然每次只能執行單個任務和少量資料，但是可以透過靈活的車輛排程，分配執行任務的最佳車輛數，讓Arm晶片在執行時有著更好地能效。

基於Arm架構的特性，蘋果等企業很快就意識到透過增加核心數（準備更多的摩托）和最佳化指令集（專車專用提升效率），就可以讓Arm晶片在效能上取得突破，Arm指令集的高能效比也讓Arm晶片可以輕鬆堆砌大量核心，而不用過多的考慮功耗問題。

此外，Arm架構的靈活性，讓蘋果可以根據需求定製化設計專門的模組負責對應的任務，使得晶片效率進一步提升，加上統一記憶體架構帶來的低延遲特性，讓M系列晶片的整體執行效率遠端傳統晶片。

圖源：蘋果

得益於多項最佳化，量變最終引起了質變，讓Arm晶片成功在單核及多核效能上都超越了傳統x86晶片，成為PC市場的新興勢力，而不再是固守在移動裝置市場。而且，蘋果很快就發現這個套路在GPU上也同樣可行，透過堆砌核心數的方式讓GPU效能同樣進入爆發式增長。

以M4 Pro和M4 Max為例，前者的GPU核心數為20個，後者則是40個，而在實際測試中，後者的各項效能基本上就是前者的兩倍。理論上，只要蘋果願意，在達到晶片內部延遲的上限之前可以無限堆疊核心，打造更強的GPU。

圖源：蘋果

不過蘋果本身並非半導體企業，其晶片設計更多的是為產品服務，所以並不會像英偉達、AMD那樣為了銷售晶片而設計出功耗、效能都「爆炸」的產品。但是蘋果不這麼做，不代表其他企業也這麼想，比如高通就一直在關注Arm GPU和CPU，除了消費端，伺服器和資料中心同樣是高通的目標市場。

在2024年，高通就宣佈重回伺服器晶片市場，推出基於Nuvia核心設計的伺服器晶片，截止目前為止，相關機構預估伺服器市場的Arm晶片佔比已經達到10%。其中不少AI算力中心都有增加Arm GPU算力伺服器的計劃，因為Arm的高能效可以顯著降低AI推理時的電力成本，進而降低單位算力的成本。

正是因為Arm架構所帶來的巨大威脅，前段時間英特爾與AMD簽署合作協議時，英偉達也同樣到場，並且同為生態小組的合作企業之一。目前，對於英偉達等企業來說，最好的訊息是蘋果無意參與到半導體晶片市場中，而壞訊息則是，高通的Nuvia核心表現不錯，恐怕會成為GPU市場的一匹黑馬。

可以預見的是，在未來的PC市場中，Arm必然會有一席之地，並且有望徹底挑戰x86架構和英偉達的市場地位。