“拖後腿”的晶片技術

如果您希望可以時常見面，歡迎標星收藏哦~

本週二，Nvidia的股價再次超越，成為全球最有價值的公司，繼今年6月創下類似紀錄後，再度迎來輝煌時刻。在過去兩年中，憑藉GPU的強大算力，Nvidia在AI時代可謂風光無限，晶片效能不斷攀升，取得了巨大的市場成功。然而，不得不指出的是，儘管GPU技術飛速發展，仍有一些短板技術正在成為英偉達發展的隱性障礙，影響著其進一步的突破。

高歌猛進的GPU

近一兩年來，我們可以看到GPU的速度迭代非常快，背後很大的因素是生成式AI（大模型）的爆發式增長。IDC預測到2027年，全球生成式AI市場規模將攀升至1454億美元，中國市場的投資也將達到129億美元，IDC指出，這一發展趨勢的自技術迭代的加速、應用領域的拓寬，以及企業對 AI 創新驅動的不懈投入。

算力是生成式AI發展的物理基礎，GPU是加速計算的主要工具。要實現大模型的突破，就需要大幅提高GPU的效能。GPU目前正進入一種“自我加速”的發展模式。和AMD等廠商面臨著巨大的市場壓力，它們必須不斷在硬體設計上推陳出新，力求實現每年一個小迭代、每兩年一個大迭代，才能滿足這些需求。即使Hopper H100 GPU 平臺是“歷史上最成功的資料中心處理器”，但黃仁勳在今年的Computex主題演講中說到，Nvidia也必須繼續努力。

英偉達的GPU架構從Fermi到 Hopper再到Blackwell，每次架構升級都帶來效能和能效上的顯著提升。從“Pascal” P100 GPU一代到“Blackwell” B100 GPU 一代，八年間GPU 的效能提升了1,000多倍。雖然過去八年效能提升了1000多倍，但是GPU的價格僅上漲了7.5倍。據瞭解，Nvidia的新款基於Blackwell的GB200 GPU系統能夠以比上一代H100系統的推理速度快30倍，但與H100 首次釋出時的價格大致相同，預計每臺GB200 GPU 的售價在30,000至40,000美元之間。

從Hopper GPU開始，英偉達就一直屬於搶手貨，而新一代的Blackwell亦是如此。10月，英偉達CEO黃仁勳表示，最新的Blackwell GPU未來12個月的訂單均已經售罄，AWS、Google、Meta、Microsoft、Oracle 和CoreWeave等主要科技巨頭是大買手。

由於對資料中心GPU的需求，Nvidia的市值自2023年初以來增長了近十倍。2023年初，英偉達的市值為3600億美元。不到兩年後，其市值已超過3.4萬億美元。

Nvidia市值超越蘋果成為全球最有價值的公司

GPU規模的發展速度之快是前所未有的，就拿AMD來說，在 AMD 2024 年第三季度財報電話會議上，AMD CEO Lisa Su指出，其GPU銷量已接近CPU銷量，這點與AMD涉足AI市場大有關係。AMD的AI GPU業務才剛開始一年，營收就已經快達到CPU業務規模。在財報會上，Lisa Su還表示：“僅在資料中心，我們預計AI加速器市場規模將以每年60%以上的速度增長，到2028年將達到5000億美元。這大致相當於2023年整個半導體行業的年銷售額。”AMD將2024年GPU銷售額預測從45億美元上調至50億美元以上。

然而，GPU這樣的快速發展也帶來了新問題。隨著GPU效能的不斷提升，背後支援它們的基礎設施——尤其是互聯技術和儲存技術——卻顯得相對滯後。

跟不上的互聯技術

如今，大型語言模型（LLMs）如ChatGPT、Chinchilla 和 PALM，以及推薦系統如 DLRM 和 DHEN，都在成千上萬的 GPU 叢集上進行訓練。訓練過程包括頻繁的計算和通訊階段，互聯技術就顯得尤為關鍵。

傳統的互聯技術如PCIe（外圍元件互聯）介面的頻寬已難以支撐日益增大的資料傳輸需求，也早已經跟不上GPU的速度，PCIe標準雖然逐步演進，但它的傳輸頻寬與GPU處理能力之間的差距越來越大。特別是在多卡平行計算的場景中，PCIe顯得捉襟見肘，限制了GPU的最大效能釋放。儘管目前許多大公司嘗試採用標準PCIe交換機，並透過基於PCIe的結構擴充套件到更多加速器，但這只是權宜之計。

為了應對這一瓶頸，英偉達開發了自家的高速互聯技術——NVLink和Infiniband。NVLink 技術可用於 GPU 之間的高速點對點互連，提供高頻寬和低延遲的資料傳輸，並透過 Peer to Peer 技術完成 GPU 視訊記憶體之間的直接資料交換，進一步降低資料傳輸的複雜性。這對於分散式環境下執行的複雜 AI 模型尤為重要。更快的縱向互聯有助於伺服器叢集內每個 GPU 效能的充分釋放，從而提升整體計算效能。

來源：Nvidia

至於Infiniband技術，是一種網路連線技術。英偉達於2019年收購了Mellanox Technologies，Mellanox是全球領先的InfiniBand技術提供商之一。收購後，英偉達繼續推進InfiniBand技術的創新，並在其加速計算平臺中深度集成了InfiniBand網路。雖然乙太網（Ethernet）在很多應用中是主流的網路連線技術，但在高效能計算（HPC）和AI訓練等場景中，InfiniBand相較於乙太網，具有顯著優勢：它提供更高的頻寬、更低的延遲，且原生支援遠端直接記憶體訪問（RDMA），使得資料傳輸更加高效。

Nvidia的Quantum-X800 InfiniBand（來源：Nvidia）

而AMD則推出了自己的Infinity Fabric互聯技術，專為資料中心最佳化，旨在提升資料傳輸速度和降低延遲。不過Infinity Fabric自然也是比不過NvLink的，不然AMD也不會發起UALink聯盟。

NVLink和InfiniBand技術雖然具有明顯優勢，但它們都是英偉達的專有技術。隨著行業對互聯技術需求的不斷增長，一方面希望避免英偉達在技術上的壟斷，另一方面也面臨著互聯技術瓶頸的挑戰。因此，許多企業開始對標英偉達的互聯技術，嘗試開發替代方案。

去年7月19日，超級乙太網聯盟 (UEC)成立，來對標InfiniBand。創始成員包括AMD、Arista、Broadcom、思科、Eviden（Atos 旗下企業）、HPE、英特爾、Meta 和微軟。目前超級乙太網聯盟已經吸引了67家公司的加入。其中不乏有許多初創公司，聯盟的成立將使這些初創公司從該聯盟的舉措中受益匪淺，UEC將成為初創公司在最佳化 TCO 的同時駕馭複雜的AI和HPC網路格局的關鍵。

UEC部分會員一覽（來源：UEC官網）

今年，行業再度將錨頭瞄向於NVLink。今年10月，由AMD主導，九大行業巨頭——包括AMD、英特爾、Meta、惠普企業、亞馬遜AWS、Astera Labs、思科、谷歌和微軟——正式聯合成立了UALink（統一加速器互聯）。UALink的目標是成為AI加速器擴充套件連線的行業開放標準。其主要優勢在於，UALink為複製NVLink和NVSwitch功能並與其他公司共享開發成果提供了一條途徑，從而讓整個行業的其他參與者都有機會與NVIDIA保持步調一致。

UALink 1.0規範將於今年向會員開放。該標準將為AI pod內多達1,024個加速器實現高達每通道200Gbps的連線。假設 Nvidia HGX 風格的伺服器內部有 8 個 AI 加速器，UALink 可以在一個pod中連線多達 128 臺這樣的機器。據tomshardware的報道，不過，UALink 最有可能經常以較小的規模使用，大約8個伺服器的pod透過UALink相互通訊，進一步的升級由超級乙太網處理。聯盟成員將在今年獲得該規範的訪問許可權，並於 2025 年第一季度開始進行全面審查。

來源：UALink新聞簡報

無論是NVLink、Fabric還是UALink，這一系列舉措反映出，現有的互聯技術跟不上加速器發展速度的普遍問題，行業迫切需要新的解決方案來支援更強勁的算力需求。

儲存更吃力

與互聯技術的滯後相比，儲存技術的進步似乎顯得更加吃力。在AI、機器學習和大資料的推動下，資料量呈現出指數級的增長，儲存技術必須緊隨其後，才能確保資料處理的效率和速度。對於當前的記憶體行業來說，高頻寬記憶體（HBM）已經成為焦點，尤其是在大模型訓練所需的GPU晶片中，HBM幾乎已經成為標配。

GPU依賴於高頻寬記憶體（HBM）來滿足高速資料交換的需求。與CPU相比，GPU需要更加頻繁的記憶體訪問，且資料的訪問模式具有很高的並行性。這要求儲存系統必須能夠在毫秒級的延遲內提供極高的資料頻寬。

2013年，SK海力士推出了首款HBM晶片，直到大模型的崛起，HBM才真正迎來了應用的黃金時機。近年來，SK海力士加速推進HBM技術的更新迭代。今年9月，SK海力士成功批次生產了全球首款12層HBM3E產品，並計劃於2025年初推出首批16層HBM3E晶片樣品。原本預計在2026年量產的HBM4，SK海力士已將時間表提前，預計將在2025年下半年交付12層HBM4晶片。

儘管如此，黃仁勳仍在敦促SK海力士加快HBM4的供應，初步要求提前6個月交付。雖然HBM的需求火爆，儲存廠商依然面臨著生產能力、技術瓶頸和成本等多重挑戰。

儲存技術的滯後給高效能計算帶來了多重挑戰：

計算能力浪費：GPU的強大計算能力無法得到充分利用，儲存瓶頸導致大量的GPU計算資源處於空閒狀態，無法高效地執行任務。這種不匹配導致了系統性能的低效發揮，增加了計算時間和能源消耗。

AI訓練效率下降：在深度學習訓練過程中，大量的資料需要頻繁地在GPU與儲存之間交換。儲存的低速和高延遲直接導致AI訓練過程中的資料載入時間過長，從而延長了模型訓練的週期。這對於需要快速迭代的AI專案來說，尤其是商業應用中，可能會造成較大的成本壓力。

大規模資料處理的障礙：隨著大資料的興起，許多AI應用需要處理海量資料。當前儲存技術未能有效支援大規模資料的快速處理和儲存，特別是在多節點分散式計算的場景中，儲存瓶頸往往成為資料流動的最大障礙。

為了解決儲存跟不上GPU發展的瓶頸，業界已經提出了一些潛在的解決方案：例如存算一體以及CXL這樣的智慧儲存架構。

隨著處理在記憶體（PIM）技術的興起，計算和儲存有可能進行更緊密的整合。PIM技術允許計算任務直接在儲存裝置上進行處理，避免了資料在計算和儲存之間的傳輸瓶頸。此類技術有望大幅提升儲存系統的效能，並有效支援GPU等計算晶片的高速資料訪問需求。

智慧儲存架構：透過採用更智慧的儲存架構，如CXL（Compute Express Link）和NVMe協議，可以實現更高效的儲存擴充套件和更低延遲的資料訪問。CXL提供了計算和儲存之間的高速互聯，使得GPU能夠更快速地訪問儲存資料，解決傳統儲存架構中存在的頻寬瓶頸問題。

儲存技術滯後於計算晶片發展的現象，顯然已經成為現代計算系統中的瓶頸。儘管儲存技術已經取得了一些進展，但與GPU等計算晶片的快速發展相比，仍存在較大的差距。

總結

在當今快速演變的技術生態系統中，多技術協同升級已成為推動新興技術發展的核心動力。要實現算力的持續增長，GPU、互聯、儲存等技術必須協調發展。雖然GPU技術已取得了顯著進步，但沒有更高效的互聯技術和更快的儲存技術支撐，算力的潛力將無法完全釋放。

對於英偉達等科技巨頭而言，如何繼續推動GPU與其他關鍵技術的協同進化，解決儲存、互聯的瓶頸，將是未來幾年中的主要挑戰。

半導體精品公眾號推薦

專注半導體領域更多原創內容

關注全球半導體產業動向與趨勢

*免責宣告：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支援，如果有任何異議，歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3941內容，歡迎關注。

『半導體第一垂直媒體』

實時專業原創深度

公眾號ID：icbank

喜歡我們的內容就點“在看”分享給小夥伴哦