隨著下半年首批支援CXL 2.0的伺服器CPU問世,近來有關CXL產品應用的訊息多了起來。作為一種新型的高速互聯技術,CXL旨在提供更高的資料吞吐量和更低的延遲,以滿足現代計算和儲存系統的需求,其在資料中心、處理器互聯,尤其是在AI等領域,都有著廣闊的應用前景。業界預期,2024年底將是CXL產品應用落地的一個重要時點。
大廠加速佈局,推出新品
CXL是繼 HBM 之後儲存領域的一項重要創新技術,因而備受矚目。眾多晶片及計算裝置廠商均對其給予高度重視。CXL技術的應用落地需要CPU以及裝置層面的軟硬體支援。
在晶片方面,英特爾在今年6月6日和9月26日相繼推出配備能效核(代號Sierra Forest)與效能核(代號Granite Rapids)的至強6處理器產品。AMD也在10月10日舉行的“Advancing AI 2024”大會上正式釋出第五代EPYC伺服器處理器EPYC 9005系列(代號Turin)。這些產品均第一代支援了CXL 2.0規範,可將CXL技術應用到伺服器端,完善了CXL 的應用環境。
在裝置方面,三星今年1月宣佈與開源軟體商Red Hat合作,在Red Hat Enterprise Linux (RHEL) 9.3作業系統中,首次成功驗證了CXL在真實使用者環境中的執行,包括記憶體識別、讀取和寫入操作。6月,隨著實際應用研究進入最後階段,三星宣佈已建立由Red Hat認證的CXL基礎設施。7 月 ,三星電子記憶體部門新業務規劃團隊負責人 Choi Jang Seok 表示,三星將在年底開始量產符合 CXL 2.0 協議的 256GB CMM-D 2.0 模組。
SK 海力士9月宣佈,其已成功將用於最佳化CXL記憶體執行的自研軟體HMSDK的主要功能在 Linux作業系統上執行。SK海力士宣稱,即使不調整現有應用程式,HMSDK也可提高至少30%記憶體整體頻寬。該軟體可以根據記憶體與CXL記憶體的差異靈活分配儲存資源。而在5月舉辦的Compute Express Link 聯盟開發者大會(CXL DevCon 2024)上,SK 海力士展示了 CMM-DDD5 CXL記憶體模組,與僅配備傳統DDR5記憶體的系統相比,頻寬提升50%、容量提升 100%。據悉,SK海力士正在對96GB及128GB容量的CXL2.0儲存器進行客戶驗證,並計劃在年底實現量產。
國內廠商方面,計算裝置提供商超聚變在今年9月的英特爾至強6效能核處理器釋出會上釋出了CXL2.0記憶體池解決方案,支援高達80根記憶體條,實現低於300納秒的訪問時延,顯著提升資料處理效率。儲存控制晶片及解決方案提供商得一微電子目前正在研發新一代的CXL系列儲存解決方案,利用CXL技術,顯著減少儲存裝置與計算資源之間的通訊延遲,實現儲存資源與CPU的緊密整合,為SSD的應用提供了新的可能性。佰維儲存則研發了支援CXL 2.0規範的CXL DRAM記憶體擴充套件模組,記憶體容量96GB,同時支援PCIe 5.0×8介面,理論頻寬32GB/s,可與支援CXL規範及E3.S介面的背板和伺服器主機板直連,擴充套件伺服器記憶體容量和頻寬。上述舉措表明,國內外廠商均在積極推動CXL技術的商業化程序。
2024年底將是重要落地時點
當下主流的計算系統依賴於資料儲存與資料處理分離的多級儲存,通常採用快取記憶體(SRAM)、主存(DRAM)、外部儲存(NAND Flash)的三級儲存結構。系統運作時,需要不斷在記憶體中往復傳輸資訊。資料在三級儲存間傳輸時,後級的響應時間及傳輸頻寬都將拖累整體效能,也就形成所謂的“儲存牆”。而且由於資料量龐大,系統往往還需要藉助外部儲存並用網路IO來訪問資料,這也會致使訪問速度的進一步下降。Google 報告就指出,該公司資料中心的DRAM利用率只有40%,微軟Azure也表示,其資料中心內,當所有的處理器核心都分配給VM之後,仍有25%的DRAM資源未被配置,處於閒置狀態。
因此,CXL 於 2019 年由英特爾、AMD 聯合推出,並得到了包括谷歌、微軟等公司在內的支援,正是旨在提供更高的資料吞吐量和更低的延遲,同時實現記憶體共享、提高記憶體利用效率。甚至有開發人員將CXL視為繼HBM之後的“下一個競爭戰場”。
CXL 技術至今經過幾次版本升級,CXL1.0於2019年3月釋出,後歷經1.1、2.0、3.0版本。去年11月CXL聯盟釋出了最新的CXL3.1版本。根據得一微首席市場官羅挺的介紹,從產品端來看,當前CXL的應用仍處於早期部署階段,2024年CXL 1.1和CXL 2.0陸續有落地產品,CXL 3.0的落地還需要更長時間,到2025年落地有望加速。Yole機構的分析資料也顯示,CXL在2024年開始爬坡,在2025年將會大規模上量。
不過羅挺也指出,CXL的應用落地目前仍有一些障礙需要克服,包含開發與 GPU、CPU 和 DRAM 相容的CXL交換裝置、設計CXL DRAM 模組以及快速開發支援軟體等挑戰都是當務之急。同時,建立CXL完整生態系統和產業鏈也是非常重要和迫切的。
令人欣慰的是,CXL記憶體擴充模組的應用環境已經較為完善,主要的記憶體廠商均已推出自家的CXL記憶體擴充模組產品,雖然現在的伺服器只能支援CXL 1.1標準,但基本上已經可以連線與執行,等到下一代也就是支援CXL 2.0伺服器上線後,就能更好地利用它的優勢,從而實現這一標準的普及。
超聚變伺服器產品總經理朱勇則指出,大模型的訓練(包括推理)帶來了整個記憶體的需求旺盛增長。如果我們把CXL技術落地得更好,對於記憶體也是一個利好。也就是說從應用場景來看,記憶體會驅使著CXL的技術發展。
AI時代CXL未來成長可期
正是由於人們對記憶體頻寬的渴求,業界對CXL的未來成長也十分看好。國聯證券從市場角度分析認為,未來採用CXL協議伺服器的佔比將會持續提升。據Yolo的預測,全球CXL市場規模預計在2028年將達到150億美元。儘管目前只有不到10%的CPU與CXL標準相容,但預計到2027年,所有CPU 都將被設計為支援CXL介面,這將進一步推動 CXL 市場的發展。朱勇也預期,SSD未來也有可能透過E3.S,甚至PCIe I/O裝置池化。除去超大儲存需求之外,這也會是有特有的需求。
從版本技術升級角度羅挺分析認為,CXL的早期版本1.0和1.1主要聚焦於單個計算節點內,實現主機與裝置間的高效記憶體一致性互連。隨後,CXL 2.0擴充套件了這一概念,將互連的範圍擴充套件至整個機櫃,使得不同節點間的記憶體和其他裝置資源能夠被匯聚成一個大型資源池,從而實現資源共享。最新的CXL 3.0和3.1版本進一步擴充套件了這一理念,將互連能力跨越機櫃,透過增強CXL交換機的路由功能和構建交換機網路,實現了跨機櫃的資源解耦、池化和共享,為構建更大規模的計算和儲存資源池提供了可能。
隨著人工智慧領域的大模型應用逐漸成為現實,推理任務正在成為智慧計算資源的主要消費者。然而,AI的商業可行性很大程度上取決於成本控制。在GPU上整合大量HBM會顯著提高成本,這並不是一個經濟高效的推理解決方案。相反,採用CXL技術來擴充套件記憶體或構建記憶體池,可以將部分HBM或視訊記憶體需求轉移到這些更經濟的記憶體資源上,從而提供一個成本效益更高的推理方案。此外,CXL作為主機與裝置間互連的解決方案,其地位正變得越來越重要,為資料中心的記憶體擴充套件和資源最佳化提供了新的視角。
總之,CXL技術作為一種新興的高速互連技術,給了業界一個新的發展機會,特別是對中國晶片廠商來說,有了更多新的發展機會。隨著國內外對高效能計算和儲存技術的需求增長,中國具有更為龐大的CXL需求市場,中國晶片廠商將有機會在這個領域不斷擴大市場份額。