如果您希望可以時常見面,歡迎標星收藏哦~
本週二,Nvidia的股價再次超越,成為全球最有價值的公司,繼今年6月創下類似紀錄後,再度迎來輝煌時刻。在過去兩年中,憑藉GPU的強大算力,Nvidia在AI時代可謂風光無限,晶片效能不斷攀升,取得了巨大的市場成功。然而,不得不指出的是,儘管GPU技術飛速發展,仍有一些短板技術正在成為英偉達發展的隱性障礙,影響著其進一步的突破。
高歌猛進的GPU
近一兩年來,我們可以看到GPU的速度迭代非常快,背後很大的因素是生成式AI(大模型)的爆發式增長。IDC預測到2027年,全球生成式AI市場規模將攀升至1454億美元,中國市場的投資也將達到129億美元,IDC指出,這一發展趨勢的自技術迭代的加速、應用領域的拓寬,以及企業對 AI 創新驅動的不懈投入。
算力是生成式AI發展的物理基礎,GPU是加速計算的主要工具。要實現大模型的突破,就需要大幅提高GPU的效能。GPU目前正進入一種“自我加速”的發展模式。和AMD等廠商面臨著巨大的市場壓力,它們必須不斷在硬體設計上推陳出新,力求實現每年一個小迭代、每兩年一個大迭代,才能滿足這些需求。即使Hopper H100 GPU 平臺是“歷史上最成功的資料中心處理器”,但黃仁勳在今年的Computex主題演講中說到,Nvidia也必須繼續努力。
英偉達的GPU架構從Fermi到 Hopper再到Blackwell,每次架構升級都帶來效能和能效上的顯著提升。從“Pascal” P100 GPU一代到“Blackwell” B100 GPU 一代,八年間GPU 的效能提升了1,000多倍。雖然過去八年效能提升了1000多倍,但是GPU的價格僅上漲了7.5倍。據瞭解,Nvidia的新款基於Blackwell的GB200 GPU系統能夠以比上一代H100系統的推理速度快30倍,但與H100 首次釋出時的價格大致相同,預計每臺GB200 GPU 的售價在30,000至40,000美元之間。
從Hopper GPU開始,英偉達就一直屬於搶手貨,而新一代的Blackwell亦是如此。10月,英偉達CEO黃仁勳表示,最新的Blackwell GPU未來12個月的訂單均已經售罄,AWS、Google、Meta、Microsoft、Oracle 和CoreWeave等主要科技巨頭是大買手。
由於對資料中心GPU的需求,Nvidia的市值自2023年初以來增長了近十倍。2023年初,英偉達的市值為3600億美元。不到兩年後,其市值已超過3.4萬億美元。
Nvidia市值超越蘋果成為全球最有價值的公司
GPU規模的發展速度之快是前所未有的,就拿AMD來說,在 AMD 2024 年第三季度財報電話會議上,AMD CEO Lisa Su指出,其GPU銷量已接近CPU銷量,這點與AMD涉足AI市場大有關係。AMD的AI GPU業務才剛開始一年,營收就已經快達到CPU業務規模。在財報會上,Lisa Su還表示:“僅在資料中心,我們預計AI加速器市場規模將以每年60%以上的速度增長,到2028年將達到5000億美元。這大致相當於2023年整個半導體行業的年銷售額。”AMD將2024年GPU銷售額預測從45億美元上調至50億美元以上。
然而,GPU這樣的快速發展也帶來了新問題。隨著GPU效能的不斷提升,背後支援它們的基礎設施——尤其是互聯技術和儲存技術——卻顯得相對滯後。
跟不上的互聯技術
如今,大型語言模型(LLMs)如ChatGPT、Chinchilla 和 PALM,以及推薦系統如 DLRM 和 DHEN,都在成千上萬的 GPU 叢集上進行訓練。訓練過程包括頻繁的計算和通訊階段,互聯技術就顯得尤為關鍵。
傳統的互聯技術如PCIe(外圍元件互聯)介面的頻寬已難以支撐日益增大的資料傳輸需求,也早已經跟不上GPU的速度,PCIe標準雖然逐步演進,但它的傳輸頻寬與GPU處理能力之間的差距越來越大。特別是在多卡平行計算的場景中,PCIe顯得捉襟見肘,限制了GPU的最大效能釋放。儘管目前許多大公司嘗試採用標準PCIe交換機,並透過基於PCIe的結構擴充套件到更多加速器,但這只是權宜之計。
為了應對這一瓶頸,英偉達開發了自家的高速互聯技術——NVLink和Infiniband。NVLink 技術可用於 GPU 之間的高速點對點互連,提供高頻寬和低延遲的資料傳輸,並透過 Peer to Peer 技術完成 GPU 視訊記憶體之間的直接資料交換,進一步降低資料傳輸的複雜性。這對於分散式環境下執行的複雜 AI 模型尤為重要。更快的縱向互聯有助於伺服器叢集內每個 GPU 效能的充分釋放,從而提升整體計算效能。
來源:Nvidia
至於Infiniband技術,是一種網路連線技術。英偉達於2019年收購了Mellanox Technologies,Mellanox是全球領先的InfiniBand技術提供商之一。收購後,英偉達繼續推進InfiniBand技術的創新,並在其加速計算平臺中深度集成了InfiniBand網路。雖然乙太網(Ethernet)在很多應用中是主流的網路連線技術,但在高效能計算(HPC)和AI訓練等場景中,InfiniBand相較於乙太網,具有顯著優勢:它提供更高的頻寬、更低的延遲,且原生支援遠端直接記憶體訪問(RDMA),使得資料傳輸更加高效。
Nvidia的Quantum-X800 InfiniBand(來源:Nvidia)
而AMD則推出了自己的Infinity Fabric互聯技術,專為資料中心最佳化,旨在提升資料傳輸速度和降低延遲。不過Infinity Fabric自然也是比不過NvLink的,不然AMD也不會發起UALink聯盟。
NVLink和InfiniBand技術雖然具有明顯優勢,但它們都是英偉達的專有技術。隨著行業對互聯技術需求的不斷增長,一方面希望避免英偉達在技術上的壟斷,另一方面也面臨著互聯技術瓶頸的挑戰。因此,許多企業開始對標英偉達的互聯技術,嘗試開發替代方案。
去年7月19日,超級乙太網聯盟 (UEC)成立,來對標InfiniBand。創始成員包括AMD、Arista、Broadcom、思科、Eviden(Atos 旗下企業)、HPE、英特爾、Meta 和微軟。目前超級乙太網聯盟已經吸引了67家公司的加入。其中不乏有許多初創公司,聯盟的成立將使這些初創公司從該聯盟的舉措中受益匪淺,UEC將成為初創公司在最佳化 TCO 的同時駕馭複雜的AI和HPC網路格局的關鍵。
UEC部分會員一覽(來源:UEC官網)
今年,行業再度將錨頭瞄向於NVLink。今年10月,由AMD主導,九大行業巨頭——包括AMD、英特爾、Meta、惠普企業、亞馬遜AWS、Astera Labs、思科、谷歌和微軟——正式聯合成立了UALink(統一加速器互聯)。UALink的目標是成為AI加速器擴充套件連線的行業開放標準。其主要優勢在於,UALink為複製NVLink和NVSwitch功能並與其他公司共享開發成果提供了一條途徑,從而讓整個行業的其他參與者都有機會與NVIDIA保持步調一致。
UALink 1.0規範將於今年向會員開放。該標準將為AI pod內多達1,024個加速器實現高達每通道200Gbps的連線。假設 Nvidia HGX 風格的伺服器內部有 8 個 AI 加速器,UALink 可以在一個pod中連線多達 128 臺這樣的機器。據tomshardware的報道,不過,UALink 最有可能經常以較小的規模使用,大約8個伺服器的pod透過UALink相互通訊,進一步的升級由超級乙太網處理。聯盟成員將在今年獲得該規範的訪問許可權,並於 2025 年第一季度開始進行全面審查。
來源:UALink新聞簡報
無論是NVLink、Fabric還是UALink,這一系列舉措反映出,現有的互聯技術跟不上加速器發展速度的普遍問題,行業迫切需要新的解決方案來支援更強勁的算力需求。
儲存更吃力
與互聯技術的滯後相比,儲存技術的進步似乎顯得更加吃力。在AI、機器學習和大資料的推動下,資料量呈現出指數級的增長,儲存技術必須緊隨其後,才能確保資料處理的效率和速度。對於當前的記憶體行業來說,高頻寬記憶體(HBM)已經成為焦點,尤其是在大模型訓練所需的GPU晶片中,HBM幾乎已經成為標配。
GPU依賴於高頻寬記憶體(HBM)來滿足高速資料交換的需求。與CPU相比,GPU需要更加頻繁的記憶體訪問,且資料的訪問模式具有很高的並行性。這要求儲存系統必須能夠在毫秒級的延遲內提供極高的資料頻寬。
2013年,SK海力士推出了首款HBM晶片,直到大模型的崛起,HBM才真正迎來了應用的黃金時機。近年來,SK海力士加速推進HBM技術的更新迭代。今年9月,SK海力士成功批次生產了全球首款12層HBM3E產品,並計劃於2025年初推出首批16層HBM3E晶片樣品。原本預計在2026年量產的HBM4,SK海力士已將時間表提前,預計將在2025年下半年交付12層HBM4晶片。
儘管如此,黃仁勳仍在敦促SK海力士加快HBM4的供應,初步要求提前6個月交付。雖然HBM的需求火爆,儲存廠商依然面臨著生產能力、技術瓶頸和成本等多重挑戰。
儲存技術的滯後給高效能計算帶來了多重挑戰:
計算能力浪費:GPU的強大計算能力無法得到充分利用,儲存瓶頸導致大量的GPU計算資源處於空閒狀態,無法高效地執行任務。這種不匹配導致了系統性能的低效發揮,增加了計算時間和能源消耗。
AI訓練效率下降:在深度學習訓練過程中,大量的資料需要頻繁地在GPU與儲存之間交換。儲存的低速和高延遲直接導致AI訓練過程中的資料載入時間過長,從而延長了模型訓練的週期。這對於需要快速迭代的AI專案來說,尤其是商業應用中,可能會造成較大的成本壓力。
大規模資料處理的障礙:隨著大資料的興起,許多AI應用需要處理海量資料。當前儲存技術未能有效支援大規模資料的快速處理和儲存,特別是在多節點分散式計算的場景中,儲存瓶頸往往成為資料流動的最大障礙。
為了解決儲存跟不上GPU發展的瓶頸,業界已經提出了一些潛在的解決方案:例如存算一體以及CXL這樣的智慧儲存架構。
隨著處理在記憶體(PIM)技術的興起,計算和儲存有可能進行更緊密的整合。PIM技術允許計算任務直接在儲存裝置上進行處理,避免了資料在計算和儲存之間的傳輸瓶頸。此類技術有望大幅提升儲存系統的效能,並有效支援GPU等計算晶片的高速資料訪問需求。
智慧儲存架構:透過採用更智慧的儲存架構,如CXL(Compute Express Link)和NVMe協議,可以實現更高效的儲存擴充套件和更低延遲的資料訪問。CXL提供了計算和儲存之間的高速互聯,使得GPU能夠更快速地訪問儲存資料,解決傳統儲存架構中存在的頻寬瓶頸問題。
儲存技術滯後於計算晶片發展的現象,顯然已經成為現代計算系統中的瓶頸。儘管儲存技術已經取得了一些進展,但與GPU等計算晶片的快速發展相比,仍存在較大的差距。
總結
在當今快速演變的技術生態系統中,多技術協同升級已成為推動新興技術發展的核心動力。要實現算力的持續增長,GPU、互聯、儲存等技術必須協調發展。雖然GPU技術已取得了顯著進步,但沒有更高效的互聯技術和更快的儲存技術支撐,算力的潛力將無法完全釋放。
對於英偉達等科技巨頭而言,如何繼續推動GPU與其他關鍵技術的協同進化,解決儲存、互聯的瓶頸,將是未來幾年中的主要挑戰。
半導體精品公眾號推薦
專注半導體領域更多原創內容
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第3941內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦