英偉達股價下跌逾4%,創下去年10月以來的最大單日跌幅,該公司將在週三市場收盤後公佈備受矚目的財報。截至收盤英偉達股價跌4.35%,總市值單日蒸發逾5500億元人民幣。成份股中包含英偉達和AMD的費城證交所半導體指數下跌1.6%,創下一週最大跌幅。
據訊息人士透露,正在研發一種新的定製網路卡,旨在減少網路部門(透過收購Mellanox成立)對微軟伺服器裝置的影響。據報道,這種網路卡類似於英偉達的ConnectX-7型號,最大頻寬支援400 Gb乙太網。
此外,英偉達還受到其他威脅,近日一款名為Groq的初創公司在AI圈爆火,全新AI晶片橫空出世,其推理速度較英偉達GPU提高10倍、成本只有其1/10;執行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度。
此前據媒體報道,2月9日在迪拜世界政府峰會上,OpenAI CEOSam Altman(薩姆·奧特曼)正在與包括阿聯酋政府在內的投資者進行談判,為一項雄心勃勃的科技計劃籌集資金。該計劃將提升全球晶片製造能力,擴大人工智慧的應用能力,以及其他方面的能力,耗資數萬億美元。其中一位知情人士說,該專案可能需要籌集至多5萬億至7萬億美元的資金。
無獨有偶,2月17日,有知情人透露,日本投資界巨頭軟銀集團(SoftBank Group Corp.)創始人孫正義(Masayoshi Son)正在尋求籌集最高達1000億美元的資金,打造一家規模龐大的合資晶片公司。
英偉達財報或成市場轉向關鍵
在對經濟韌性、貨幣政策放鬆和企業盈利的樂觀情緒推動標普500指數今年創下歷史新高後,對風險資產的需求近期減弱。所有的目光都集中在英偉達的業績上,因為這家晶片巨頭一直是大盤上漲的重要推動力,在2024年就飆升了40%。
“自從最近的突破以來,英偉達經歷了一波史詩般的上漲,” Freedom Capital Markets首席全球策略師Jay Woods寫道。“在本週公佈財報之際,股價停滯不前。他們必須公佈什麼才能保持漲勢?我們將在週三的報告後找到答案。”
隨著期權驅動的動量交易將標準普爾500指數推至歷史新高,華爾街對於這股“期權狂熱”背後的風險越來越感到憂慮。一些市場分析師認為,英偉達(Nvidia Corp.)即將釋出的財報可能是給這股熱潮踩剎車的關鍵催化劑,有可能逆轉過去四個月市場的大部分漲勢。
據衍生品市場專家透露,投資者對高風險的期權押注過於樂觀。即便英偉達的業績符合華爾街預期,僅僅是財報公佈這一事實,就可能因期權市場的內部動態而引發美國主要股市指數的下跌。
期權市場的“偏差”衡量的是價外看漲期權與價外看跌期權的需求之差,而目前這一指標已接近2021年迷因股熱潮以來的最扭曲水平。這表明,期權買家已從傳統的保險購買者轉變為更多的投機交易者。
“市場已經在一家公司身上押下了巨大的賭注,”獨立股市分析師邁克爾·克萊默表示,“如果英偉達不大幅上漲,什麼能讓它繼續走高?”他指出,今年以來,該股已上漲近50%,在標準普爾500指數自2024年初以來的漲幅中,英偉達貢獻了約25%。
傳微軟正開發英偉達網絡卡的替代品
然而,由於晶片尚未釋出,上市時間尚不確定,最終設計可能會將更高的乙太網頻寬(例如 800 GbE)作為目標。
這個專案的領導者是Pradeep Sindhu,他曾是Juniper Networks的聯合創始人之一。去年,微軟收購了Sindhu最新的初創公司 Fungible,並將他聘為負責該專案的主管。透過為人工智慧工作負載量身定製高速網路硬體,微軟的目標是加快並降低人工智慧模型訓練的成本,同時減少對英偉達作為高效能網絡卡主要供應商的依賴。
訊息來源稱,開發新網路卡預計需要一年多的時間。但如果成功,微軟的基礎架構可以透過為其超級分壓器資料中心定製最佳化,從而獲得性能提升。
與英偉達的網路裝置相比,該網路卡還具有更節能的優勢,即使模型規模迅速擴大,這也有助於微軟控制人工智慧培訓成本。
從長遠來看,擁有專為人工智慧定製的網路技術可以為微軟帶來競爭優勢。它將為最佳化和更新資料中心硬體提供更多控制權,以適應來自OpenAI和其他合作伙伴的不斷發展的人工智慧工作負載。雖然英偉達圖形處理器目前在人工智慧加速領域佔據主導地位,但微軟的 Maia晶片和網路卡等替代品可能會放鬆對其的控制。
隨著人工智慧滲透到更多的商業和消費應用中,微軟正在為以人工智慧為中心的未來在下一代基礎設施方面進行大規模投資。
英偉達被“偷家”?全新AI晶片橫空出世
晶片推理速度較英偉達GPU提高10倍、成本只有其1/10;執行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度——短短几天,一家名為Groq的初創公司在AI圈爆火。
Groq讀音與馬斯克的聊天機器人Grok極為接近,成立時間卻遠遠早於後者。其成立於2016年,定位為一家人工智慧解決方案公司。
在Groq的創始團隊中,有8人來自僅有10人的谷歌早期TPU核心設計團隊。例如,Groq創始人兼CEO Jonathan Ross設計並實現了TPU原始晶片的核心元件,TPU的研發工作中有20%都由他完成,之後他又加入Google X快速評估團隊,為谷歌母公司Alphabet設計並孵化了新Bets。
雖然團隊脫胎於谷歌TPU,但Groq既沒有選擇TPU這條路,也沒有看中GPU、CPU等路線。Groq選擇了一個全新的系統路線——LPU(Language Processing Unit,語言處理單元)。
“我們(做的)不是大模型,”Groq表示,“我們的LPU推理引擎是一種新型端到端處理單元系統,可為AI大模型等計算密集型應用提供最快的推理速度。”
從這裡不難看出,“速度”是Groq的產品強調的特點,而“推理”是其主打的細分領域。
Groq也的確做到了“快”,根據Anyscale的LLMPerf排行顯示,在Groq LPU推理引擎上執行的Llama 2 70B,輸出tokens吞吐量快了18倍,優於其他所有云推理供應商。
第三方機構artificialanalysis.ai給出的測評結果也顯示,Groq的吞吐量速度稱得上是“遙遙領先”。
為了證明自家晶片的能力,Groq還在官網釋出了免費的大模型服務,包括三個開源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前兩個已開放使用。
圖|Groq(Llama 2)對比ChatGPT(來源:X使用者JayScambler)
LPU旨在克服兩個大模型瓶頸:計算密度和記憶體頻寬。據Groq介紹,在 LLM 方面,LPU較GPU/CPU擁有更強大的算力,從而減少了每個單詞的計算時間,可以更快地生成文字序列。此外,由於消除了外部記憶體瓶頸,LPU推理引擎在大模型上的效能比GPU高出幾個數量級。
據悉,Groq晶片完全拋開了英偉達GPU頗為倚仗的HBM與CoWoS封裝,其採用14nm製程,搭載230MB SRAM,記憶體頻寬達到80TB/s。算力方面,其整型(8位)運算速度為750TOPs,浮點(16位)運算速度為188TFLOPs。
值得注意的是,“快”是Groq晶片主打的優點,也是其使用的SRAM最突出的強項之一。
SRAM是目前讀寫最快的儲存裝置之一,但其價格昂貴,因此僅在要求苛刻的地方使用,譬如CPU一級緩衝、二級緩衝。
華西證券指出,可用於存算一體的成熟儲存器有Nor Flash、SRAM、DRAM、RRAM、MRAM等。其中,SRAM在速度方面和能效比方面具有優勢,特別是在存內邏輯技術發展起來之後,具有明顯的高能效和高精度特點。SRAM、RRAM有望成為雲端存算一體主流介質。
本文源自金融界