今天國內AI科技圈、AI炒股圈,都被一則訊息振奮了,“大模型最快推理晶片的一哥換人了,不再是了”。
海外公司Groq基於自研晶片推出的推理加速方案,速度比英偉達的GPU快了十倍,成本卻降低為十分之一,一來一去,百倍提升。難怪大家會興奮。
由於Groq不再採用HBM,而是利用SRAM來加速,於是資本市場也把SRAM當了寶貝,相關上市公司股價快速上漲。
那麼,Groq憑什麼這麼驚奇呢?SRAM就這麼好用?
我翻看了Groq釋出的論文,憑著僅存一點點的計算機原理,大概理了一點思緒。
1、首先,Groq的產品設計場景,主要是“推理”階段,而英偉達目前產品在大模型訓練階段更好用。因此,Groq的方案更突出“實時”。
2、其次,這還是一個“專用VS通用”的故事。
在AI領域,為什麼GPU能打敗CPU呢?因為CPU就像一位教授,懂得多、能寫會算做事講邏輯;而GPU呢,就像高中生,雖然懂得不多,但架不住人多、又能並行執行。如果只是解二元方程的話,那一百個高中生、同時計算,肯定比一個教授要高效得多。
於是,GPU在AI領域,利用平行計算的優勢,大獲全勝。
但是,GPU也還算個多面手。從下游客戶就能看出來,遊戲宅男們希望買到英偉達的顯示卡,數字貨幣的礦工們也希望買到英偉達顯示卡,搞氣象科學的、搞AI的也都希望買到英偉達的顯示卡。多需求也必然會帶來一些功能設計、計算資源的冗餘浪費。
那麼,再來一個專門、只用於機器學習的晶片,豈不是更加高效?
這就是谷歌TPU(Tensor Processing Unit)晶片的思路。Tensor來自於谷歌TensorFlow深度學習框架,突出了TPU為深度學習而生。
Groq的創始人就來自於谷歌,設計並實現了第一代TPU晶片的核心元件。他們團隊根據TPU的經驗進行了進一步最佳化,於是有了LPU(Language Processing Unit),專為AI計算提供高確定性的低延遲和高效能。
我看到他們這個介紹的時候,彷彿面前站著一排人在說:就是要讓你牛逼,誰也攔不住。
3、核心問題是,為什麼LPU會更高效呢?這裡就涉及到指令調取等知識了。複雜的我不講,主要也是已經不懂了。說些大致的原理。
A、計算有兩個必不可少的步驟:讀取資料+執行指令。
而LPU就是為機器學習設計的。所以,預先就把機器學習高頻需要的指令,進行了定製,有一套適用於機器學習的指令集架構ISA。
知道客戶要什麼就準備什麼,肯定比什麼都準備要高效。
B、其次,把深度學習的資料操作流程,拆解為了更微小的操作,並透過不同的硬體排列,實現了功能交替。
主要功能硬體包括矩陣單元MXM、用於逐點運算的vector單元、用於資料重塑的SXM單元、以及儲存器單元。而這裡的儲存用的是SRAM。
Groq將這個方式稱之為“鏈條化(chaining)”。可以粗暴理解為,GPU還要解二元方程,LPU把二次方程進一步拆解,有人專門做合併、有人做計算。或者說,像福特汽車設計了流水線一樣,效率大幅提升。
相比而言,英偉達的GPU採用的HBM技術,也是為了加快讀取資料、處理資料的速度。但資料存在DRAM裡,再調取到GPU裡,就會產生時延。
C、LPU採用的SRAM,比英偉達採用的DRAM要快得多。
SRAM中文是靜態隨機存取儲存器,DRAM就是動態儲存器。SRAM是用觸發器來儲存資訊,而且不需要對資料進行重新整理,也可以同時送“行、列”地址。而DRAM是用電容儲存資料,需要重新整理來保持資料,不然資料會丟失。行、列地址也是分兩次送的。
所以,結果就是,SRAM執行速度要顯著快於DRAM。
為什麼LPU採用SRAM,而英偉達採用DRAM呢?我的理解是,還得回到開頭的那句話:場景不一樣啊。
Groq面向未來AI大爆發後的“推理”階段,使用者是實時互動的,資料也是實時的,資料進、資料出的,採用高速儲存合適。
而英偉達目前是應用於訓練,訓練必然有大量資料,且對實時要求沒那麼高。那用成本更低的DRAM也是合適的。
D、Groq強調,友商是透過“Hardware-defined硬體定義”的方法來實現大規模網際網路絡,而我們是靠“Software-defined軟體定義”的思路,基於tensor streaming processing (TSP) 實現大規模互聯。透過軟體預先設計,可以使得硬體更高效、可控。
E、所以最終效果就是,Groq的晶片,相當於多個功能單元組成一個大的計算單元;而友商則是把小型計算單元,複製多次。
還是用造車舉例子就是,LPU就是流水線工廠,100個員工分幾組,每個組、每個人職能明確、配合嫻熟;而友商是100個員工,每個人都擅長多個環節、都會造一輛車。福特流水線,已經證明了專業、細分、分工的有效性。
因此,LPU對於LLM大語言模型而言,非常適合。
4、LPU引起的熱烈討論,是不是也反映了一個趨勢:簡單、專用的,打敗複雜、通用的。把一件事情做到極致,就已經完美了。
計算,越來越專業、垂直;但大模型,卻又是在往通用、多模態發展。未來如何演繹,應該會非常精彩。希望中國玩家們不缺席、上舞臺,也有機會站C位。