如果您希望可以時常見面,歡迎標星收藏哦~
來源:內容來自nextplatform,謝謝。
勞倫斯利弗莫爾國家實驗室、桑迪亞國家實驗室和洛斯阿拉莫斯國家實驗室在 HPC 社群中被簡稱為“三重實驗室”,但這些 HPC 中心或許可以稱為“嘗試實驗室”,因為它們歷史上嘗試過幾乎任何新的架構,以瞭解它在推進美國能源部的使命方面可能有何前景。
桑迪亞國家實驗室是先鋒計劃測試新架構的地方,現在它帶著 Cerebras Systems 的第三代晶圓級系統再次迴歸,希望在一臺真正設計用於執行 AI 訓練和推理的機器上突破傳統 HPC 程式碼的效能障礙。
兩年前,桑迪亞從 Cerebras 收購了數量不詳的 CS-2 系統,每個系統都有一個 CPU 主機和一個 WSE-2 晶圓級處理器,目的是將一些矩陣密集的 HPC 計算解除安裝到 WSE-2 引擎上的 16 位浮點核心上。
為什麼桑迪亞甚至會考慮將其 64 位或 32 位格式的計算精度降低四倍或兩倍?因為這些 WSE-2 引擎(正如我們在 2022 年 3 月詳細介紹的那樣)將 850,000 個核心和 40 GB 的片上 SRAM 記憶體(蝕刻在 2.6 萬億個電晶體中)塞進一個餐盤大小的方形矽片中,具有 20 PB/秒的記憶體頻寬和 6.25 千萬億次浮點運算的密集矩陣和 62.5 千萬億次浮點運算的稀疏矩陣。
我們的想法是,對於某些型別的工作負載,如果問題適合記憶體,或者可以分解為跨越這些核心的部分,那麼在單個大型裝置上進行計算可以使 HPC 模擬執行得更快。
今年早些時候,桑迪亞國家實驗室的一個研究小組證明了這一點,單個 CS-2 系統在某種分子動力學模擬中擊敗了橡樹嶺國家實驗室的“Frontier”超級計算機。
更大的 Frontier 機器擁有 37,632 個 AMD “Aldebaran” MI250X GPU 加速器,可以模擬晶格中的大量原子,但由於這些 GPU 叢集的擴充套件性較弱,它無法模擬長時間擺動的原子。節點之間的延遲使這成為不可能。
但是,使用改進的 LAMMPS 分子動力學模擬,桑迪亞設立了一個測試,其中鎢、銅和鉭晶格由靜態原子陣列成——801,792,足以讓一個 WSE-2 核心儲存一個原子的資料——然後模擬這些晶格受到輻射衝擊。與龐大的 Frontier 系統中的 GPU 相比,桑迪亞在一臺 WSE-2 計算引擎上進行的 LAMMPS 模擬中每秒可處理的時間步數對於銅高 109 倍,對於鎢高 96 倍,對於鉭高 179 倍。這為 Cerebras 鐵上的模擬提供了數十毫秒的時間,正如我們當時指出的那樣,有足夠的時間來實際觀察當你用能量戳晶格時晶格會發生什麼。
在 Frontier 機器上,該應用程式的擴充套件在 32 個 GPU 時逐漸減弱,這令人失望,並且表明對於某些型別的應用程式來說,很難在單個計算裝置之外進行擴充套件。
當時,我們推測,如果 Sandia 升級到今年 3 月推出的 CS-3 系統中的 WSE-3 計算引擎,它就可以贏得更多時間(即模擬時間) 。藉助 WSE-3 引擎,Cerebras 將電晶體縮小到 5 奈米(WSE-2 為 7 奈米),並將核心數量增加到 900,000 個,但轉移到 8 寬 FP16 SIMD 單元,是 WSE-2 和 WSE-1 引擎中使用的 SIMD 單元寬度的兩倍。我們認為 WSE-3 的時鐘速度提高了約 5%,當你將時鐘速度、核心跳躍和 SIMD 提升相乘時,這就是 WSE-3 的效能是 WSE-2 的 2 倍的原因。
我們猜測,透過從 WSE-2 移至 WSE-3,這種效能提升可能會將鉭晶格輻射的模擬視窗從 40 毫秒增加到 80 毫秒。相比之下,Frontier 機器上的這些節點模擬時間約為 200 納秒。
嗯,看起來桑迪亞國家實驗室的人們想要獲得一些 WSE-3 計算引擎並一探究竟。我們還強烈懷疑他們想弄清楚是否可以將模擬擴充套件到多個晶圓上並突破 1 秒模擬障礙。
也許是為了這個目的,也為了其他目的,桑迪亞國家實驗室和 Cerebras 已經開始構建一個綽號為“Kingfisher”的系統,該系統將以四個 CS-3 系統開始,並將在未來某個時候擴充套件到八個系統。Kingfisher 叢集將在傳統的 HPC 模擬工作和 AI 工作上加倍努力——當然是生成式 AI,但不一定僅限於此——這可以增強三實驗室在國家核安全域性的支援下進行的處理,該局資助三實驗室管理美國軍方的核武器庫存。具體來說,Kingfisher 是由核威懾高階模擬和計算人工智慧計劃資助的。
桑迪亞研究人員 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 旁邊。
在宣佈 Kingfisher 系統的宣告中,一直領導桑迪亞 CS-2 系統工作的研究人員之一 James Laros 表示,實驗室正在探索使用未來版本的 WSE 計算引擎“用於 Mod-Sim 和 AI 工作負載的組合”的可行性。我們過去曾與 Cerebras 聯合創始人兼執行長 Andrew Feldman 開玩笑說,世界真正需要的是一個擁有 64 位 SIMD 引擎的 WSE,該引擎可以擴充套件到 FP64 精度,甚至可以降低到 FP4 精度,並且可以動態執行,可能是在晶圓上的不同塊中,也可能是在程式碼執行時動態執行,因此理論上 HPC 中心的任何程式碼都可以在 Cerebras 硬體上執行。
如果有足夠多的人這麼說,並且有足夠多的人為此提供資金,也許這就會實現。對我們來說,這些都不是笑翠鳥。Nvidia 不再專注於其 GPU 的 FP64 效能。
Kingfisher 系統的成本尚未公佈,但我們知道,按照標價(無論 HPC 領域的標價是多少),去年 G42 開始與 Cerebras 合作,基於 CS-2 機器構建“Condor Galaxy”叢集時,配備單個 WSE-2 的 CS-2 系統的成本約為 160 萬美元。也許這意味著要獲得 CS-3,價格要上漲 1.5 倍,或者可能上漲 2 倍。在一個要求每一代都物有所值的世界裡,230 萬美元到 250 萬美元可能是合理的。在一個需要更高效能且選擇很少的世界裡,320 萬美元的 CS-3 節點成本是合理的。無論如何,我們認為桑迪亞不會為機器支付接近標價的價格,但同時希望幫助資助那些可能幫助其更好地執行模擬的公司。我們可以肯定地告訴你的是,Frontier 的 32 GPU 部分僅花費約 425,000 美元,但它只能擴充套件到這麼大。
那麼,增加原子數量和增加模擬時間對 NNSA 來說有什麼價值呢?可能價值很大。
我們期待進一步瞭解 Kingfisher 所做的事情以及它是如何做到的。
最後一件事:桑迪亞團隊在 Cerbras 晶圓級系統上進行的分子動力學研究將角逐今年的戈登貝爾獎。我們希望他們能獲獎,這樣 GPU 供應商們就得時刻保持警惕了。
https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/
半導體精品公眾號推薦
專注半導體領域更多原創內容
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第3949期內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦