整理 | 燕珊
據 The Information 最新報道,下一代 Blackwell 晶片在高密度伺服器機架中出現嚴重過熱問題,導致設計變更和客戶方面的部署延遲。這讓 Google、Meta 和微軟等主要客戶對能否按時部署 Blackwell 產生擔憂。
過熱問題或拖累交付計劃
英偉達早在今年 3 月釋出了 Blackwell 系列產品,原計劃是 2024 年第二季度發貨,但之前已經因為設計缺陷而推遲。
據報道,Blackwell GPU 在高密度伺服器機架中面臨嚴重的過熱問題。這些高密度伺服器機架集成了 72 塊 AI 晶片,每個機架功耗高達 120kW。但高密度和高功耗的設計帶來了散熱難題,不僅限制了 GPU 效能,還可能損壞硬體元件。
為解決這一問題,英偉達不得不多次調整機架設計,並對冷卻系統進行工程修訂。據悉,英偉達已指示供應商實施多項改進措施。
英偉達對此回應稱,散熱問題和設計變更是技術開發中的正常流程,並重申正在與雲服務商和供應商合作,確保最終產品符合效能和可靠性要求。
戴爾宣佈,基於英偉達 GB200 NVL72 架構且採用液冷技術的伺服器機架已發貨
在等待 Blackwell 問題解決的同時,一些客戶已開始考慮替代方案。據報道,部分客戶比如,已計劃透過更換部分元件來定製 Blackwell 機架,以適應其資料中心需求。
一位雲計算公司高管透露,他們正在增加當前一代 Hopper 晶片的採購量。分析認為,這可能在短期內提升英偉達的收入,尤其是 Hopper 晶片的利潤率較高。然而,這種轉向也可能削弱未來對 Blackwell 及其 NVLink 伺服器的需求,對英偉達的長期增長構成潛在威脅。
在散熱問題之前,因為封裝設計的問題,Blackwell 晶片的釋出至少被推遲了三個月。Blackwell 晶片採用臺積電的 CoWoS-L 封裝技術,透過區域性矽互連(LSI)橋實現高達 10 TB/s 的資料傳輸速度。然而,GPU 晶片、LSI 橋和主機板之間的熱膨脹特性不匹配,曾導致晶片變形和系統故障。
為解決這一問題,英偉達調整了晶片結構,並重新設計模具,最終在 10 月底完成了修正。
Tom’s Hardware 指出,儘管此類調整在大規模技術推廣中很常見,但還是可能會進一步推遲 Blackwell 的預期發貨時間。
Blackwell 需求驚人,
效能表現屢創新高
Blackwell 晶片自發布以來,市場需求和關注度一直很高。在此前採訪中曾多次表示,市場對 Blackwell 晶片的需求強到“瘋狂(insane)”。
在近期的 MLPerf Training 4.1 基準測試中,Blackwell GPU 也繼續展現領先的效能。
上週,英偉達公佈了 Blackwell GPU 在 MLPerf v4.1 AI 訓練工作負載方面的成績——在 MLPerf Training 4.1 的測試中,訓練 Llama 270B 模型的速度較前代 Hopper GPU 快了達 2.2 倍。此外,得益於 HBM3e 高頻寬記憶體的應用,Blackwell僅需 64 塊 GPU 即可完成此前需 256 塊 Hopper GPU 才能達到的計算任務。
與此同時,Hopper 平臺也在持續最佳化。在本輪 MLPerf 訓練測試中,Hopper 的每 GPU GPT-3 175B 訓練效能比首次引入該基準時提高了 1.3 倍。
分析師普遍認為,AI 應用的發展仍處於早期階段,Blackwell 的推出將繼續推動英偉達業績增長。摩根士丹利預計,Blackwell 新產品線將在 2025 年第一季度提升公司收入,預計銷售額將在 50 億至 60 億美元之間。
隨著 Blackwell 預計於 2025 年 1 月底開始大規模交付,其實際表現能否滿足市場預期,將成為接下來觀察的重點。
AMD 推出新款 AI 晶片
挑戰 Blackwell
在英偉達努力解決技術問題的同時,AMD 也在加速進軍 AI 晶片市場。上個月,AMD 宣佈推出全新 AI 晶片Instinct MI325X,並且計劃在 2024 年底前開始生產。AMD 的這一動作被認為是對英偉達在 GPU 市場主導地位的挑戰。
目前,英偉達的 GPU 在 AI 晶片市場佔據 90% 以上份額,而 AMD 一直穩居第二。此次釋出的 MI325X 是去年推出的 MI300X 的繼任者,AMD 計劃每年釋出一款新晶片,以更快響應市場需求並縮小與英偉達的差距。
AMD 預計,到 2028 年,AI 晶片市場規模將達到 5000 億美元。AMD CEO 蘇姿豐表示,“AI 需求正在迅速超出預期,全球範圍內的投資仍在加速。”在效能方面,蘇姿豐表示,MI325X 在處理 Meta 的 Llama 3.1 模型時推理效能比 Nvidia H200 高出 40%。
雖然 AMD 沒有宣佈新的客戶名單,但公司此前已透露過 Meta、微軟和 OpenAI 正在使用其 AI 晶片的訊息。AMD 也強調,其晶片在生成內容和預測類 AI 應用中具有優勢,這得益於其先進的記憶體設計。
然而,英偉達的 CUDA 語言已成為 AI 開發的事實標準,其技術生態和市場優勢仍然是 AMD 最大的競爭障礙。有分析指出,隨著 Meta、微軟等雲巨頭對 AI 需求的持續增長,AMD 有機會透過價格和效能的差異化策略,吸引更多客戶,尤其是在生成式 AI 模型推理等細分領域。
https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/
https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers
https://blogs.nvidia.com/blog/mlperf-training-blackwell/
https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.
會議推薦
就在 12 月 13 日 -14 日,AICon 將匯聚 70+ 位 AI 及技術領域的專家,深入探討大模型與推理、AI Agent、多模態、具身智慧等前沿話題。此外,還有豐富的圓桌論壇、以及展區活動,滿足你對大模型實踐的好奇與想象。現在正值 9 折倒計時,名額有限,快掃碼諮詢瞭解詳情,別錯過這次絕佳的學習與交流機會!