一顆“神奇”的晶片

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容編譯自chipsandcheese，謝謝。

最近，以色列晶片獨角獸 NextSilicon 推出了一款新型超級計算機晶片 Maverick-2，定位為 Nvidia 同類產品的直接競爭對手。目前，只有少數幾家公司涉足該領域，而 NextSilicon 是其中的一家領先初創公司。據 Calcalist 瞭解，該公司的新晶片已獲得數千萬美元的訂單。

據 NextSilicon 介紹，Maverick-2 既不是 FPGA，也不是 GPU，而是不同的東西，是一款智慧計算加速器 (ICA)，引入了智慧軟體定義的硬體加速，可提供實時適應性。該技術旨在為 HPC、AI 和向量應用提供卓越的效能和效率。

據報道，Maverick-2 重新定義了加速器架構，突破了基於 80 年前的馮·諾依曼架構的傳統固定 GPU 設計的限制。它使用先進的遙測技術和 NextSilicon 的專利演算法，根據應用程式的獨特需求實時動態調整加速。這種適應性可使組織實現比傳統 GPU 效能高出 4 倍以上的每瓦效能和比高階 CPU 效能高出 20 倍以上的每瓦效能，同時將運營成本降低一半以上。

Maverick-2 ICA 旨在專注於 HPC 和 AI 環境中大部分時間執行的關鍵程式碼和工作流程。其自最佳化架構可實現即時、可擴充套件的效能改進。這是透過建立針對每個應用程式的效能需求量身定製的軟體定義處理器核心來實現的，然後在加速器硬體上執行。在應用程式執行時，遙測資料會被輸入到 NextSilicon 的智慧演算法中，以實時不斷自我最佳化效能、功耗和利用率。結果是，對於要求最苛刻的 HPC 應用程式，其效能在規模上是高效的，同時功耗比傳統 GPU 低 50-80%。

Intersect360 Research 高階分析師 Steve Conway 表示：“傳統的 CPU 和 GPU 架構通常受到高延遲管道和有限的可擴充套件性的限制。顯然，我們需要減少 HPC 和 AI 基礎設施中的能源浪費和不必要的計算。NextSilicon 透過 Maverick-2 解決了這些重要問題，這是一種專為滿足 HPC 和 AI 的獨特需求而構建的新型架構。Maverick-2 旨在打破採用和從傳統架構遷移的障礙。”

多年來，替代加速器一直試圖挑戰傳統 GPU 和 CPU 的主導地位，但它們往往難以克服應用程式移植的複雜性和供應商特定框架，從而造成鎖定。NextSilicon 的 Maverick-2 ICA 是第一個透過功能強大、使用者友好的軟體套件突破這些障礙的產品。它原生支援 C/C++、FORTRAN、OpenMP 和 Kokkos 等流行語言，允許許多應用程式無需修改即可在 Maverick-2 上執行。這種軟體相容性和易用性節省了數月的開發工作量，從而縮短了科學和洞察的時間。NextSilicon 致力於為客戶應用程式提供全面支援，並計劃即將整合 CUDA、HIP/ROCm 和領先的 AI 框架。

Maverick-2 不僅解決了當今 HPC 商業和研究計算挑戰，還融入了 NextSilicon 獨特的智慧財產權，以應對不斷發展和未來的工作負載。其智慧靈活的架構旨在輕鬆適應融合 HPC-AI 工作負載、向量資料庫應用、AI 模型的突破以及新興的代理和生成 AI 應用的新用例。

Penguin Solutions 首席技術官 Phil Pokorny 表示：“我們很高興支援 Maverick-2 智慧計算加速器的推出，以及其推動 HPC 市場效能和效率達到新水平的潛力。”“在 Penguin，我們擅長將前沿理念轉化為成果——速度更快，規模更大，使我們的客戶能夠應對最苛刻的工作負載。Maverick-2 的智慧軟體定義方法補充了我們提供的廣泛技術，為組織提供了最佳化其基礎設施並在 HPC 和 AI 方面取得突破性成果的強大選擇。隨著應用程式複雜性的增加，像 Maverick-2 這樣的創新為我們的客戶開闢了新的可能性，以加速科學和商業進步。”

NextSilicon 創始人兼執行長 Elad Raz 表示：“我很高興宣佈推出 Maverick-2 智慧計算加速器，這是計算領域的一項突破性創新。Maverick-2 代表了首創的解決方案，它無縫結合了先進的軟體和硬體，以最佳化在世界上最大的高效能計算系統上執行的最複雜的科學程式碼。隨著我們對更快、更高效的應用程式的需求不斷增長，Maverick-2 開啟了以前被認為不可能實現的可能性。我要向我們的客戶和員工表示最深切的感謝，感謝他們堅定不移的支援和承諾。我們對未來令人難以置信的進步感到興奮。”

Maverick-2 ICA 目前正在向數十家客戶發貨，並將於 2025 年初開始批次發貨，以滿足大量積壓訂單。NextSilicon 支援各種組織，從美國能源部到領先的學術研究機構，以及金融服務、能源、製造業和生命科學垂直領域的商業客戶。現在可以透過合作伙伴 Penguin Solutions 和 Dell Technologies 為新客戶提供早期採用者計劃。

最近，chipsandcheese採訪了這家廠商，讓我們看一下，一窺背後的秘密。

George Cozma：請談談 NextSilicon，以及為什麼您選擇 HPC，因為 AI 如今風靡一時。

Elad Raz：所以我們是下一代計算，從加速計算部分開始。我們擁有獨特的架構，可以執行任何大規模平行計算。我們決定瞄準超級計算行業，因為這是一個巨大的市場，也是一個服務不足的市場。超級計算是一個 500 億美元的市場，其中包括儲存、互連和所有基礎設施。如果你只計算銷售的計算晶片、CPU、GPU 和其他加速器的數量，每年就有 200 億美元。所以這是一個巨大的市場，你可以列出數百個 AI 專用的加速器和 GPU，所以我認為作為一個需要籌集數億美元的人，最好先展示收入，我認為 HPC 是一個很大的市場。所以我們決定從 HPC 行業開始。

George Cozma：太棒了。說到你們的新晶片 Maverick 2，它有兩個 100 千兆乙太網埠。我們看到很多關於 400 千兆和即將推出的 800 千兆的新聞頭條；100 千兆似乎不多。為什麼呢？

Elad Raz：所以你需要了解超級計算的工作原理，與機器學習硬體晶片無關。因為在 AI 晶片中，HBM 中的快速記憶體數量有限，它們位於晶片的邊緣。而且 HBM 的容量有限。你可以在一個晶片上放置 2 TB 的超高速記憶體。現在 Maverick 2 有 192 GB。有些晶片可以達到 288 GB，這個容量很大。但對於 3500 億個引數，例如，假設 FP16，你需要 700 GB。所以你可以把整個重量放在一個晶片上。你需要幾個。然後它們需要在縮減過程中相互通訊。所以互連速度非常快。

我之前的公司被 Mellanox 收購了。所以我一生中的大部分時間都在做互連。超級計算、Infiniband、乙太網、Infiniband 上的 RDMA、RoCE、融合乙太網上的 RDMA。這非常難。所以你需要考慮產品的方式不是，嘿，你有一個晶片和一個互連解決方案。每個人都會使用你的基於乙太網的互連，並開始在其上做 RDMA。這不會發生。但它將服務於金融行業。所以在金融領域，你有高頻交易、風險管理，最佳化點是延遲而不是吞吐量。我們不需要 800 千兆。我們需要的是讓資料包非常快地進入處理器核心並將其傳送出去。所以到目前為止，我所說的一切都是如何逐步建立一家公司。去 HPC 公司，創造收入，然後轉向其他垂直行業。這也是我們對互連的看法。

George Cozma：那麼說到晶片的互連供電，我向你保證，我會利用這個技術取得一些進展，你認為這個晶片的 PCIe 匯流排頻寬是多少？

Elad Raz：是的。PCIe 是有限的。PCIe Gen 5 有 16 個通道，速度為每秒 64 GB。這遠遠不足以輸入和輸出資料。PCIe Gen 6 的速度將是它的兩倍。而且有 112 Gbps 通道，速度不是每秒千兆位。是的，你可以達到每秒 256 GB，但需要一些開銷。再說一次，你的 Apple M1 有 500 GB。M1 有 400 GB。現在有了 M4，它上升到每秒 500 多 GB。每秒 550 GB。所以你的膝上型電腦比 PCIe 擁有更多的記憶體頻寬。因此，加速計算的目標是劃分工作負載，一些計算將在主機上進行，本地化在主機記憶體中，而大多數時間你想留在裝置上，在晶片上。好的。所以很明顯，你想把最新和最好的假設從 CPU 端支援，CXL，PCIe。但我們的架構不受 PCE 的約束，因為我們有這種智慧演算法，可以找出什麼是重要的，並將其放在晶片上。現在，一旦它在晶片上定位，你就會留在晶片上。

George Cozma：說到晶片，從 HBM 到晶片的頻寬高達每秒 6.4 TB。您究竟如何使用所有這些頻寬？那麼這些頻寬究竟能實現什麼呢？

Elad Raz：當然。曾經有過在 CPU 上新增 HBM（而不是 DDR）的實驗。使用者很快意識到他們無法使 HBM 頻寬飽和，因為如果你仔細想想，假設 CPU 可以每個時鐘週期向記憶體發出載入或恢復命令，並且你已經對所有內容進行了向量化，並且獲得了 512 位，那麼也許你可以使 HBM 飽和，對吧？通常，CPU 正在進行計算，你會丟失未命中資料。因此，這就像 64、96 個核心在 HBM 上並行工作，每個 1 到 16 個時鐘週期都如此。你無法為它們提供最新的 HBM，對吧？我們有不同的架構。它不是處理器核心。它是硬體加速器，可以發出這些寬記憶體塊並向 HBM 提供資料。

George Cozma：那麼說到您的架構，從記憶體系統來看，這是一個肯定或否定的問題，您的 SRAM 是否分佈在所有不同的核心之間？

Elad Raz：是的。

George Cozma：因為它看起來就是這個樣子 [指著牆上的一張die照片]。

Elad Raz：是的，那些是 SRAM。

George Cozma：所以如果你有這個 SRAM，並且它正在移動所有這些資料，因為它是一個空間架構，那麼 NOC 是什麼，片上網路是什麼，它需要多少頻寬來移動所有這些資料，比如說如果這個核心 [指向晶片左上象限的處理器單元] 需要訪問該記憶體通道 [指向晶片右下角的 HBM PHY]？

Elad Raz：所以我們稱之為——請原諒我使用像垃圾因素這樣的語言，因為你不希望核心的一側與另一側通訊。你想讓一切都保持本地化。如果你看到這裡，那些 NOC 屏障，它們實際上是兩者之間的屏障。你會受到懲罰，導致這些瓷磚相互接觸。好的。所以有一個懲罰。

而損失是以延遲而不是吞吐量來衡量的。我們設計了一個 NOC，您可以獲得完整的吞吐量。但即便如此，您也不想四處走動。是的，我當然會實現。現在大多數專業架構都執行領域特定語言，對吧？例如，您需要為 AMD 編寫 ROCm 或為 Nvidia 編寫 CUDA。而 AI 初創公司，每個都有自己的語言，這很好。您可以在這些加速器中看到的事情之一就是記憶體的工作方式。您不能使用 C++ 或全時架構的原因是它不是快取一致的。好嗎？因此，在語言內部，有一個共享記憶體的概念，這是 CUDA 中的名稱。在 LLVM 中，它是地址空間，地址空間 3，也就是說，這是一個本地化記憶體。處理器程式碼，與之對話。如果您想訪問另一個，您需要執行 DMA 並移動資料。顯然我們有這個功能，因為我們可以執行 CUDA、ROCm 和其他。但是如果你執行 C++ 程式碼會發生什麼？

智慧計算機架構的最後一點是，你可以在執行時最佳化這些功能並本地化資料，這樣這些資料流圖中的每一個都可以相互通訊，並且資料將保持本地化。是的，如果你偶爾有一個地址命令傳送到另一個晶片，那麼你就會有延遲損失。但總的來說這並不重要。

George Cozma：現在，正如您所討論的程式和資料，它們是一種具有空間架構的已知量，只是試圖將程式裝入晶片，從歷史上看，這非常困難，因為您永遠沒有足夠的 SRAM 來容納整個程式。您如何嘗試解決無法容納整個程式的問題——因為程式是資料，您無法容納所有程式，而您要處理資料，您如何解決這個問題？

Elad Raz：是的。所以我們有了可能流和不可能流的概念。可能流是大多數時候發生的計算核心。那些是迴圈。迴圈不儲存在記憶體中。它們不儲存在 SRAM 或 HBM 中。它們不是處理器程式碼。我這裡沒有指令、提取用法和複雜的分支預測。它們就像根本沒有分支預測器一樣。有一個數據流。而且我有限制——我們不想進入架構內部。所以現在，我們只是保持它——我的意思是，想象一個 FPGA，但就像用於軟體的 FPGA，類似的東西。它的工作方式是——重新配置正在改變每個計算圖旁邊的不同 ALU。然後你像函式圖一樣在晶片內部蝕刻。然後你在資料處理時提取資料。每個時鐘，都有新資料輸入，新資料輸出。所以在編譯器程式碼中有一個概念，同一個程式，多個數據（SPMD）。

例如，您確實有一些函式，沒有共享向量化指令的概念。沒有非常長的指令狀態，因為資料流上可以有很多型別。我的意思是，它只是不同而已。這就像一個思維混亂，因為您需要以不同的方式思考它。它正在旋轉計算架構，並說這是執行大規模並行應用程式的正確方法。我們能夠破解它。

George Cozma：太棒了。那麼我們的最後一個問題，或者說我的最後一個問題是，您最喜歡哪種乳酪？

Elad Raz：好吧，我先說說我最討厭的乳酪，那就是義大利乳清乾酪。我妻子很喜歡。有一次她直接把它塞進我嘴裡，我不喜歡。但我最喜歡味道很臭的乳酪，藍乳酪。例如，丹麥藍乳酪就是我最喜歡的。

https://chipsandcheese.com/p/nextsilicon-putting-hpc-first

半導體精品公眾號推薦

專注半導體領域更多原創內容

關注全球半導體產業動向與趨勢

*免責宣告：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支援，如果有任何異議，歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3961期內容，歡迎關注。

『半導體第一垂直媒體』

實時專業原創深度

公眾號ID：icbank

喜歡我們的內容就點“在看”分享給小夥伴哦