英偉達CEO黃仁勳(Jensen Huang)
由於ChatGPT爆火引發 AI 算力需求熱潮, AI 晶片供不應求、大規模短缺。如今,英偉達似乎遭遇到了更多挑戰。
北京時間2月21日,據報道,科技巨頭正在開發一種新的網絡卡晶片,替代英偉達ConnectX SmartNIC智慧網絡卡產品,以確保 AI 模型資料可以在微軟雲伺服器之間快速傳輸。
微軟方面確認了此訊息。該公司在一份宣告中表示,作為微軟Azure基礎設施系統方法的一部分,公司經常開發新技術來滿足客戶的需求,包括網路晶片。
實際上,作為英偉達GPU(圖形處理器)的最大客戶之一,微軟事件是一個重要“訊號”。除了省成本之外,微軟還希望新網絡卡能夠提高其英偉達晶片伺服器的效能,將有助於使用微軟雲的OpenAI 研發更多 AI 大模型。
不止是微軟。
近兩天,一家名為Groq的美國 AI 公司一夜“爆火”,主要因其自研的LPU晶片在 AI 推理技術上,透過最佳化架構和減少記憶體瓶頸,實現了高效率和低延遲,在處理大模型時的速度遠超英偉達GPU,每秒生成速度接近500 tokens,而GPT-4僅40 tokens。
因此,Groq LPU被譽為“史上最快的大模型技術”。
受上述訊息以及外部環境影響,截至2月20日美股收盤,英偉達單日股價下跌4.35%,創下去年10月以來的最大單日跌幅,一夜之間總市值縮水780億美元(約逾5600億元人民幣)。
2月20日,IDC分析師對鈦媒體App等表示,隨著Sora的推出,多模態大模型對 AI 算力的消耗更高,算力的可獲取性以及成本將是行業挑戰之一。
那麼,面對這種新的競爭局勢,英偉達真的危險了嗎?
Groq到底是誰?為什麼這麼強?
據悉,Groq公司成立於2016年,總部位於美國加利福尼亞,創始團隊中有很多人都參與過谷歌TPU專案。
其中,Groq創始人兼 CEO喬納森·羅斯(Jonathan Ross)曾設計並製作出了第一代谷歌TPU晶片的核心元件,TPU 20%的研發專案都由他完成。
公司領導層的10人中,有8人都有在谷歌、英特爾等科技巨頭的工作經歷。
Groq創始人兼 CEO喬納森·羅斯(Jonathan Ross)
融資方面,截至目前,Groq共完成了3輪融資,總共融資到了3.67億美元。最後一輪融資在2021年4月完成,融資金額為3億美元,由老虎環球基金(Tiger Global Management)和投資公司D1 Capital領投。
Groq之所以能夠在此次 AI 熱潮中“爆火”,主要得益於其使用了自研晶片LPU(Language Processing Units),而不是英偉達的GPU(圖形處理器)晶片,它能實現高速度和低延遲。
據Groq在2024年1月的第一個公開基準測試,由Groq LPU驅動的Meta Llama 2-70B模型,推理效能比其他頂級雲計算供應商快18倍。
Groq LPU的工作原理與英偉達的GPU不同,它採用了名為時序指令集計算機(Temporal Instruction Set Computer)架構,使用儲存器為靜態隨機存取儲存器(SRAM),其速度比GPU所用的高頻寬儲存器(HBM)快約20倍。
從晶片的規格中,SRAM容量是230MB,頻寬80TB/s,FP16的算力是188TFLOPs。
這一區別造成了 LPU和GPU在生成速度的差別。據Groq表示,英偉達GPU生成每個tokens需要約10焦耳(J)到30焦耳,而 Groq 僅需1焦耳到3焦耳。
值得注意的是,雖然Groq做到了足夠快,但背後成本卻非常高昂。
2月20日,前阿里巴巴集團副總裁、Lepton AI創始人兼CEO 賈揚清在社交平臺上表示,由於每一張Groq卡的記憶體容量僅為230MB,因此在執行Llama-2 70B模型時,需要305-572張Groq卡才足夠,而用H100則只需要8張卡。
賈揚清認為,如果按未來執行三年的成本算,Groq的硬體採購成本是1144萬美元,運營成本至少要76.2萬美元。從目前的價格來看,這意味著在同等吞吐量下,這幾乎是H100硬體成本的40倍、能耗成本的10倍
據騰訊科技,晶片專家姚金鑫(J叔)表示,Groq對Llama2-7B的Token生成速度是750 Tokens/s。如果從成本的角度,9臺的Groq伺服器,也是遠遠貴過2臺總共16顆的H100晶片的伺服器,即使目前價格已經非常高了。
“英偉達在本次AI浪潮中的絕對領先地位,使得全球都翹首以盼挑戰者。每次吸引眼球的文章,總會在最初被人相信,除了這個原因之外,還是因為在做對比時的‘套路’,故意忽略其他因素,用單一維度來做比較。”姚金鑫表示。
不止是成本高昂。SRAM技術面積大、功耗比較高,早就以IP核心形式整合到SoC(系統級晶片)裡面,並非單獨用,遠不如HBM的未來發展潛力。不管是比單位容量價格、還是效能和功耗,英偉達GPU所使用的HBM技術都優於SRAM。
雖然Groq的晶片成本較高,但其創始人Jonathan Ross已表示,隨著GPU短缺和成本上升,Groq的LPU將有巨大的市場潛力。
不僅是Groq。
據The information 2月21日報道,英偉達的重要客戶、全球最高市值的科技巨頭微軟計劃設計一款新的網絡卡晶片,以替代英偉達相關產品。
知情人士稱,微軟執行長薩蒂亞·納德拉 (Satya Nadella) 已任命網路裝置開發商瞻博網路 (Juniper Networks) 聯合創始人普拉迪普·辛杜 (Pradeep Sindhu) 來領導網絡卡工作。據悉,微軟一年前收購了辛杜創立的伺服器晶片初創公司Fungible。
據悉,網絡卡是資料中心與伺服器內部的一項重要技術,旨在加速伺服器之間的流量,解決大流量網路資料包處理佔用CPU的問題。
在此之前,英偉達曾釋出NVIDIA ConnectX SmartNIC 智慧網絡卡,最新的ConnectX-7 透過加速交換和資料包處理(ASAP2)、高階RoCE、GPUDirect Storage,以及用於TLS、IPsec 和MACsec 加密和解密的內聯硬體加速等功能,為敏捷、高效能網路解決資料傳輸問題。
69億美元收購Mellanox 之後,近兩年,英偉達已研發出一種新的DPU(資料處理器)晶片,最新產品為BlueField-3 SuperNIC,將SmartNIC智慧網絡卡整合內部。
據悉,DPU是面向基礎設施層(IaaS)的專用處理器,具備靈活可程式設計性。BlueField利用英偉達DOCA(集資料中心於晶片的架構)軟體開發包的優勢,為開發者提供一個完整、開放的軟硬體平臺。除了BlueField,英偉達還有NVLink、NVSwitch等多種技術整合,從而增強資料傳輸能力。
報道引述微軟內部人士稱,當微軟在其資料中心使用英偉達製造的 AI 晶片時,由於OpenAI等客戶擁有的大量資料傳輸需求,伺服器可能會過載。目前,微軟已釋出了首款Maia AI 伺服器晶片。
The information稱,微軟的網絡卡晶片與ConnectX-7卡類似,將其與GPU和 AI 晶片“捆綁”銷售。
AI 晶片競爭加劇,英偉達真的危險了嗎?
除了微軟,亞馬遜旗下雲計算部門AWS、Meta等科技巨頭也在自研對標英偉達A100的多款 AI 晶片產品。
去年11月,AWS 推出全新基於ARM架構、自研的高效能計算伺服器CPU晶片Graviton 3E,同時釋出第五代Nitro網路晶片硬體,藉此提升雲端虛擬機器的計算效率,並支援天氣預報、基因測序等場景任務;2月5日Meta正式計劃今年部署一款新的自研 AI 晶片,即第二代自研AI晶片Artemis,預計將於2024年正式投產,以減少對英偉達晶片的依賴。
如今,奧爾特曼和孫正義也加入到了 AI 算力晶片戰場。
其中,奧爾特曼已公佈透過籌集8萬億美元製造 AI 晶片半導體網路,目前正與日本軟銀集團、阿聯酋政府、美國商務部以及其他中東主權財富基金等投資者洽談,有望擴大OpenAI技術能力;軟銀創始人孫正義被曝正在籌集1000億美元研發 AI 半導體產品。
AWS高階副總裁彼得·德桑蒂斯 (Peter DeSantis) 曾表示,AWS希望客戶用新的Graviton 3E處理器執行更多工,從而獲得高效能計算能力。他認為,與購買英特爾、英偉達或AMD晶片相比,亞馬遜自研晶片將為客戶提供更具價效比的算力支援。
研究公司 DellOro Group 的資料中心基礎設施負責人 Baron Fung 表示,微軟和其他雲提供商“不想受制於英偉達(Nvidia)生態系統”。
OpenAI CEO奧爾特曼(Sam Altman)曾私下表示,與谷歌相比,OpenAI在算力上處於劣勢。
那麼,面對 AI 晶片競爭加劇局面,英偉達真的危險了嗎?
英偉達曾表示,微軟的網路元件可能會蠶食其網路裝置每年超過100億美元的銷售規模。
不過,賈揚清認為,如果執行未來三年的話,Grog的硬體採購成本是1144萬美元,運營成本遠高於76.2萬美元,而8卡英偉達H100 的硬體採購成本僅30萬美元,運營成本大約為7.2萬美元以內,價效比更高。
整體來看,英偉達H100產品在 AI 晶片市場上仍具有很強的競爭能力。
黃仁勳2月中旬表示,每個國家都需要擁有自己的 AI基礎設施,以便在保護自己文化的同時利用經濟潛力。接下來的4到5年裡,我們將擁有價值2萬億美元的資料中心,它將為世界各地的 AI 軟體提供動力,所有 AI 技術都會加速,而英偉達正取代通用計算核心,體系結構的效能將同時得到提高。
對於奧爾特曼的7萬億美元計劃,黃仁勳稱,(7萬億美元)顯然能買下所有GPU。
“如果你假設計算機不會變得更快,可能就會得出這樣的結論:我們需要14顆行星、3個星系和4個太陽來為這一切提供燃料。但計算機架構仍在不斷進步。”黃仁勳表示。
黃仁勳曾坦言,這些雲計算廠商自研 AI 晶片是有一定理由的,主要還是服務自家的資料中心,但這不會影響英偉達在全球的 AI 生態系統發展。
北京時間2月22日凌晨,英偉達預計將釋出2023年財報,根據該公司對上年最後一個季度的預測,2023財年總營收將達到近590億美元,是2022財年的兩倍多。
據標普全球市場資料,蘋果公司、微軟、亞馬遜以及谷歌的母公司和Facebook的母公司——都從未像英偉達一樣,在一年內從類似的起點上實現如此快的收入增長。按年收入計算,英偉達將超越英特爾,成為全球第二大晶片公司。
資本市場目前猜測,英偉達將預計4月當季收入達到216億美元,是去年同期的三倍。
截至發稿前,英偉達市值達到1.72億美元,接近2萬億美元。據FactSet的資料,按這一市值計算,英偉達股票的遠期市盈率約為38倍,比其三年平均水平低約9%。
對於3月英偉達GTC將釋出B100 AI 晶片,摩根士丹利分析師Joseph Moore在一份最新報告中表示,基於早先有關該系統的一些披露,B100是“最先進技術的巨大進步”。
另外,面對微軟、AWS的 AI 晶片競爭局面,英偉達正推出自己的超算雲服務DGX Cloud,透過在資料中心內執行英偉達產品,實現更大的收入規模,以對抗這些舉措。有行業人士向鈦媒體App表示,英偉達內部對於DGX Cloud和英偉達 A100/H100卡預期營收佔比分別為20%、80%。
“AI 算力似乎無處不在。”Rosenblatt Securities分析師漢斯·莫塞曼(Hans Mosesmann)稱。
Meta公司CEO馬克·扎克伯格曾表示,構建“通用人工智慧”(AGI)需要的首要條件是“世界級的計算基礎設施”。
支付寶CTO陳亮(花名:俊義)近期對鈦媒體App等表示,目前 AI 大規模應用在實施過程中,依然面臨多個“瓶頸”,包括算力成本高、硬體限制等問題。儘管GPU卡的效率已經非常高,但如何使其適應不同的技術棧(與不同技術相容)依然是一項重要難題。
阿爾特曼曾透露,OpenAI 希望保證到 2030 年都有足夠的 AI 晶片供應。
彭博在一份最新報告中預估,未來10年,生成式 AI 技術有望在硬體、軟體、服務、廣告、遊戲等領域創造1.3萬億美元收入,佔科技領域總支出的10%-12%。
其中在硬體領域,基於大資料、機器學習和神經網路演算法的AI模型訓練將會成為一個巨大市場。到2032年,其銷售規模有望達到4740億美元,年複合增長率達30%,加上 AI 推理,整個全球算力規模屆時將超過6000億美元。
(本文首發鈦媒體App,作者|任穎文、林志佳,編輯|林志佳)