要提高算力,我們通常首先想到提高單個晶片的處理速度,但實際上,晶片之間的通訊速度同樣關鍵。在計算機網路通訊中,頻寬和延遲是兩個關鍵衡量指標,而對於 AI 網路來說,這一點同樣適用。
對於訓練上千億甚至萬億引數的大規模模型來說,單個 GPU 的處理能力已經顯得微不足道,計算任務往往需要由大型顯示卡叢集協同完成。
然而,當前 GPU 記憶體容量和效能正在迅速增長,但輸入/輸出(I/O)效能的增長卻相對滯後,這成了 AI 算力提升的重要瓶頸,導致了大量計算資源未被充分利用,造成了資源浪費。
由於傳統 PCIe 協議的發展依然落後於時代需求,轉而開發專有介面協議 NVLink 來應對這一問題,也藉此掌控了行業內的話語權。
也有、AMD、谷歌、微軟等公司開發行業開放標準 Ultra Accelerator Link 與此對抗。
與之不同是,一家名為 Enfabrica 的初創公司則選擇開發網路互聯晶片,透過提供一種替代的擴充套件方式,融入現有 AI 算力體系中,以實現更高效的資料傳輸,從而減少算力閒置,整體上提高算力系統的利用率。
2024 年 11 月 19 日,在 2024 年超級計算大會 (SC24) 上,該公司宣佈,繼去年獲得包括 NVIDIA 在內的 1.25 億美元 B 輪融資後,已完成 1.15 億美元的 C 輪融資。
這輪融資由 Spark Capital 領投,ARM、思科、三星等參投等,並得到了現有投資者的支援。
同時,Enfabrica 還宣佈將於 2025 年第一季度推出其 3.2Tbps 加速計算結構 (Accelerated Compute Fabric,ACF) SuperNIC 晶片和試點系統。
據瞭解,ACF SuperNIC 晶片採用了一種融合縱向擴充套件(Scale-Up)和橫向擴充套件(Scale-Out)的混合架構,形成了一個多維度的高頻寬域。
傳統網路架構通常依賴於標準乙太網網路和 PCIe 交換機來實現擴充套件,但這種方式會遇到頻寬瓶頸和延遲管理的問題。
而 ACF SuperNIC 透過結合高基數的 800、400 和 100 千兆乙太網介面、32 個網路埠和 160 個 PCIe 通道,透過更高效的兩層網路設計,能夠支援超過 50 萬 GPU 的 AI 叢集,從而實現叢集中所有 GPU 的最高橫向擴充套件吞吐量和最低的端到端延遲。
ACF SuperNIC 的設計目標是用其加速計算結構替代傳統的多層網路基礎設施,實現計算、記憶體和網路資源的可組合 AI 結構。
據 Enfabrica 的聯合創始人 Sankar 解釋,該架構充當中心輻射模型,能夠分解和擴充套件任意計算資源。
無論是 CPU、GPU、加速器、記憶體還是快閃記憶體,它們都可以連線到這個中心,從而使 ACF-S 有效地充當這些計算資源的聚合 I/O 結構裝置。
這種集線器式架構為計算、記憶體和網路資源的靈活組合提供了基礎,實現了更高的可擴充套件性和計算效率。
該晶片基於臺積電的 5 奈米 FinFET 工藝上製造,採用標準的硬體和軟體介面,包括多埠 800 GbE 網路、高效能 PCIe Gen5,以及 CXL 2.0+ 介面。
在單個矽片中集成了多太位元交換和異構計算與記憶體資源之間的橋接,透過集體記憶體分割槽,在多個端點之間實現低延遲零複製資料傳輸,提供更高效的主機記憶體管理和突發頻寬,從而共同提高 GPU 伺服器群的整體效率和每秒浮點運算 (FLOP) 的利用率。
並且,ACF SuperNIC 所採用的標準介面,可以在不改變裝置驅動程式和協議的情況下,在 CXL 3.0 到來之前實現記憶體擴充套件和共享,同時未來也相容 CXL 3.0 標準。
這為資料中心運營商提供了巨大的運營效率優勢,使他們可以在由來自多個供應商的 GPU 和加速器組成的 AI 計算佇列中部署通用的高效能後端網路結構。
與此同時,該晶片所具有的“彈性訊息多路徑”(RMM)技術,可大規模提高 AI 叢集的彈性、可維護性和正常執行時間,消除由於網路鏈路故障導致的 AI 作業停滯,從而提高有效訓練時間和 GPU 計算效率,無需更改 AI 軟體堆疊或網路拓撲。
Enfabrica 稱,ACF SuperNIC 使客戶能夠在相同的效能點上將大型語言模型 (LLM) 推理的 GPU 計算成本降低約 50%,深度學習推薦模型 (DLRM) 推理的成本降低 75%。
該晶片將於 2025 年第一季度開始供貨。該公司預計,到 2027 年,其 SFA 晶片的互連市場規模將達到 200 億美元,主要目標客戶包括公有云和私有云運營商、HPC 系統製造商和網路裝置製造商。
未來,隨著 AI 模型的規模不斷擴大以及算力需求的提升,AI 晶片互聯市場或將繼續壯大。
根據 DellOro Group 的資料,到 2027 年,人工智慧基礎設施投資將使資料中心資本支出增加到 5000 億美元以上。
與此同時,根據 650 Group 的資料,到 2027 年,資料中心在計算、儲存和網路晶片上的高效能 I/O 晶片支出預計將翻一番,達到 200 億美元以上。
除了 Enfabrica 之外,思科也於去年推出了支援 AI 網路工作負載的 Silicon One G200 和 G202 硬體系列。
其他競爭對手如 Broadcom 和 Marvell 也在積極研發高效能交換機,博通的 Jericho3-AI 架構甚至可以連線多達 32,000 個 GPU。在中國,國數集聯也於今年 4 月推出了業界首款 CXL 多級網路交換機參考設計。
背靠英偉達的 Enfabrica 能否實現其目標,還有待市場的檢驗。
參考資料:
1.https://www.businesswire.com/news/home/20241119607725/en/Enfabrica-Raises-115M-in-New-Funding-to-Advance-its-Leadership-in-AI-Networking-Solutions
2.https://www.allaboutcircuits.com/news/startup-enfabricas-accelerate-compute-fabric-addresses-ai-ml-in-the-cloud/
3.https://nowlab.cse.ohio-state.edu/static/media/workshops/presentations/exacomm24/ISC%202024-talk_final%20(1).pptx.pdf
4.https://blog.enfabrica.net/press-release-enfabrica-announces-availability-of-worlds-fastest-gpu-network-interface-controller-e7223fb98aa1
5.https://techcrunch.com/2023/09/12/enfabrica-which-builds-networking-hardware-to-drive-ai-workloads-raises-125m/
運營/排版:何晨