圖片系AI生成
面對晶片備受限制的困境,中國雲計算產業能做什麼?
12月3日,中國半導體行業協會、中國網際網路協會、中國汽車工業協會和中國通訊企業協會先後釋出宣告,呼籲國內企業謹慎採購美國晶片,擴大與其他國家和地區晶片企業合作,積極使用內外資企業在華生產製造的晶片。
就在前一日,美國商務部工業和安全域性(BIS)釋出了最新的對華半導體出口管制措施,將136家中國實體列入了所謂“實體清單”,涉及半導體制造裝置、電子設計自動化工具等多個種類的半導體產品。
2022年、2023年的10月份,BIS均釋出了針對中國半導體限制的措施,今年由於美國大選影響遲遲未發,但加強版的限制措施還是不出意料地到來。四大協會所在的領域代表著萬億級別的市場,“美國晶片產品不再可靠、不再安全”的表達,也傳遞出直接的態度。
與以往不同,本次禁令著重對高頻寬記憶體(HBM)管制,明顯針對人工智慧領域,HBM是大模型等高階AI任務中必需晶片,適用於海量資料的高速傳輸,HBM的主要製造商:包括韓國的SK海力士、電子以及美國的美光科技。
晶片是數字基礎設施的基礎,除了晶片之外,從全球範圍觀測,雲計算廠商正在扮演中堅力量的角色。大模型時代的雲計算,向上接入作業系統、應用軟體等,基於雲的開發方式成為主流,向下定義硬體,自研晶片、伺服器、作業系統等底層技術,這一趨勢更為明顯。
而對於中國雲計算而言,在晶片層受到的限制更為嚴峻,IT從業者們正在從不同維度、不同層面發力,試圖解決或者緩解晶片禁令帶來的影響,雲計算在重壓之下被賦予了更緊要的使命。
雲廠商,“苦英偉達久矣”
英偉達GPU晶片客觀上促進了大模型的爆發,但是英偉達的壟斷地位,攫取了大模型產業發展至今的絕大部分利潤,已經引起產業各方的抱怨,不同廠商都開始用自己的方式降低“英偉達依賴”,其中又以雲服務商為最。
據報道,今年早些時間,美國司法部近期收到了包括AMD和AI晶片初創公司在內的英偉達競爭對手的投訴,稱英偉達會將晶片與其他產品捆綁銷售,同時可能存在限制客戶購買英偉達競爭對手的行為,比如漲價或者降低採購數量等。
雲服務商是晶片產業的最大客戶之一,據 TrendForce 統計資料,2022 年 AI 伺服器採購中,北美四大雲服務商微軟、谷歌、Meta、亞馬遜位居前列,合計佔比 66.2%。而隨著大模型競爭門檻的提高,巨頭集中效應還在加劇。
不論國內還是國外,基礎大模型的預訓練,都以大算力叢集的雲基礎設施為主。OpenAI早期的大模型都是在微軟Azure上訓練出來的,目前雙方正在共建一個代號為 “星際之門” 的巨型資料中心專案,專案預計成本超過 1150 億美元,將配備數百萬塊 GPU。
再如,在AWS re:Invent 2024上,Anthropic聯合創始人Tom Brown宣佈了下一代Claude大模型將在AWS的Project Rainier上進行訓練,這將是一個擁有數十萬Amazon Tranium2(亞馬遜自研機器學習訓練晶片)的算力叢集。
除了海外雲服務商,國內雲服務商以華為、阿里為代表,也在數年之前就開始研發晶片,美國禁令讓這一目標的實現難上加難,註定了中國雲服務商需要更多的替代式創新,從而彌補晶片層面的不足。
根據SIA和Techinsights資料,2023年中國大陸約佔全球半導體市場需求的30%,而產值約佔全球7%,對應自給率約23%,其中12%為中國本土企業(狹義自給率),11%為外企在中國大陸製造。
雲巨頭自研晶片做系統創新已經成為共識,一位國內雲廠商戰略人士表示,以大模型為代表的AI技術革命,可以認為是對整個計算機科學的一次革命,AI和雲的結合,會重新定義AI,也會重新定義從晶片到伺服器等所有軟硬體。
半導體產業是一個技術複雜、產業結構高度專業化的生態體系,規模擴張建立在技術成熟、分工進一步細化的基礎上,而目前x86體系數十年建立的體系正在被大模型衝擊。一位行業人士表示,如果沒有大模型,產業還會沿著原有的方向,格局固化、技術小改,英特爾的衰敗和英偉達的崛起,也不會發生,但是技術革命必然會出現。
“美國因為人工智慧對中國加以限制,實際上也是因為產業秩序正在重新建立,美國贏在了x86通用計算的時代,智算時代會湧現出新的領導者,美國當然不希望出現在中國。”他補充說道。
目前,全球領先的大模型公司已經有了共識,追求端到端的全鏈路協同最佳化。做模型的公司希望能和計算公司走到一起,把自己對於模型最前瞻的理解和下一步演進的態勢和雲計算公司做溝通,希望雲計算公司對他的模型做最佳化,雲計算公司又會進一步再向下傳遞,與晶片公司做溝通。
整個體系革新互為牽引,AI競爭的終局是能夠在全棧體系裡面做端到端的系統級最佳化,不僅AWS、微軟和谷歌等雲廠商,透過自研、投資等方式和大模型廠商深度繫結,就連英偉達也投資了雲計算公司,並且做了自己的大模型。
圖片系AI生成
用異構計算和算力堆疊,換晶片產業發展時間
在可預期的數年時間裡,隨著大模型產業的高速增長,晶片產業還將呈發散式的擴張邏輯,晶片的種類會更多,技術路線也較難收斂,多種晶片共存的現狀不會改變。
“一雲多芯”,對於中國雲廠商有獨特的意義。海外雲廠商不受晶片限制影響,更多是出於業務自由選擇相容自研晶片等,而國內雲廠商採用“一雲多芯”的方式,能夠在一定程度上遮蔽不同晶片的差異。
起初,雲廠商的解決方案是,每一種型別的晶片叢集都單獨建雲,在形成多雲後透過雲管理平臺從軟體層面進行統一管理,但是多朵雲分資源統一排程難,多雲/多AZ對客戶的機房規劃、建設預算豔秋高等問題,註定該方案不是最佳選擇。
“一雲多芯”將所有異構算力統一納管,把不同的晶片等硬體封裝成標準算力,從客戶視角看無需太過關注晶片,相容適配等工作由雲廠商解決,這也是當前晶片形式下的必經之路,其中的關鍵是雲作業系統,典型如阿里雲的飛天作業系統、百度的萬源作業系統。
不同的晶片之間很難互聯,且不同晶片間沒法在同一張網裡面跑同一個任務,目前只有少部分廠商實現。狹義的“一雲多芯”是指在一個雲平臺內可同時採用多種異構CPU等型別的國產晶片,而廣義的“一雲多芯”要求提供從CPU擴充套件到GPU、網路裝置,以及各類行業生態應用、客戶自建應用的全域相容能力。
譬如在CPU層面,雲服務商需要支援intel、海光、鯤鵬、飛騰等共多種晶片,在GPU層面支援Nvidia、華為昇騰、海光DCU、寒武紀等主流AI晶片。
另外一種方式是多晶片堆疊,用算力叢集來解決單晶片能力不足的問題,尤其在AI晶片層面禁運形勢嚴峻的情況下,是大家正在探索的高階AI算力解決方案。不過當晶片數量增加到一定程度時,由於晶片之間的通訊和互連限制,系統的效能反而會下降。
例如華為雲今年推出的下一代雲基礎設施CloudMatrix,一方面,華為受到美國製裁更早,更有動力研究替代創新方案;另一方面,華為有自研的昇騰晶片系列,如何發揮晶片堆疊的效果,用雲計算探索新的基礎設施也在預料之中。
據瞭解,CloudMatrix也是先實現了“一雲多芯”,將伺服器內的 CPU、NPU、DPU、儲存和記憶體等多樣資源的統一池化並靈活配置,以此形成大規模、緊耦合的多元算力池化架構,之後的關鍵是高效傳輸網路。
CloudMatrix 透過超高頻寬 ScaleUp 網路從“傳統乙太網”向“共享匯流排乙太網”演進,實現池化算力的高速互聯,新的網路協議實現跨物理伺服器的統一標識、統一的訪問和訊息通訊機,從而實現 CPU、NPU、儲存記憶體等多樣資源的跨伺服器統一池化,透過資源全部對等連線,既可以水平擴充套件,更可以垂直擴充套件。簡單一句話,就是在一定範圍內,堆疊之後的晶片可以實現近乎線性的算力增長。
展望未來,中國雲計算行業不得不面對晶片長期受限的形勢,既要與國際主流發展趨勢接軌,也要兼顧國產晶片的特殊環境,中國雲計算廠商需要在軟硬體設施層面協同創新,方能解決緩解部分晶片產業的難題,用異構計算和算力堆疊等方式,換取晶片產業發展的時間。(本文首發於鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達)