DeepSeek R1的橫空出世給全球AI行業帶來了新的變數。面對衝擊,美國兩大AI巨頭Anthropic與OpenAI迅速做出回應,試圖淡化市場對其技術領先地位的擔憂。
週三,Anthropic 執行長達里奧·阿莫迪 (Dario Amodei) 釋出了一篇長文討論了DeepSeek的進展,他指出DeepSeek 並沒有“用 600 萬美元做到美國 AI 公司花費數十億美元才能實現的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一箇中等規模的模型,訓練成本達數千萬美元,遠不是數十億美元級別。
他認為DeepSeek的訓練成本降低符合行業趨勢,並不代表突破性的技術成就:
如果 AI 訓練成本的下降趨勢是 每年 4 倍,如果 DeepSeek-V3 的訓練成本比一年前開發的美國當前模型低約 8 倍,那其實完全符合正常趨勢......即使接受 DeepSeek 的訓練成本資料,他們也只是處於趨勢線上,甚至可能還未完全達到。
此前一天,OpenAI首席研究員Mark Chen也對DeepSeek R1做出回應,其態度既肯定又帶有一絲微妙。
Chen承認DeepSeek"獨立發現了OpenAI在o1模型研發過程中的一些核心理念",然而,Chen隨即將焦點轉移到成本問題上,認為"外界對成本優勢的解讀有些過頭"。
但紐約大學教授、AI專家Gary Marcus認為,DeepSeek對OpenAI的影響可能比想象中更大。
阿莫迪先系統拆解了AI發展的三大定律:
規模法則
AI 的一個核心特性是 規模驅動效能提升。我和我的聯合創始人在 OpenAI 工作時,曾是最早記錄這一特性的人之一。在其他條件相同的情況下,訓練規模越大,AI 在一系列認知任務上的表現越穩定、越出色。例如,100 萬美元訓練的模型可能能解決 20% 的關鍵編碼任務,而 1000 萬美元的模型可能達到 40%,1 億美元的模型則可能提高到 60%。這種差距往往極具實際影響——再增加 10 倍的計算量,可能意味著從本科生的水平躍升至博士生的能力。因此,各公司正投入鉅額資金訓練更大規模的模型。
計算成本的下降
AI 領域不斷湧現新的最佳化思路,使模型訓練更高效。這可能是架構上的改進(例如對 Transformer 的最佳化),也可能是底層硬體的效率提升。這些創新會 降低訓練成本:如果某項技術創新帶來 2 倍的計算效率提升,那麼本需要 1000 萬美元的訓練任務,如今只需 500 萬美元即可完成。
每家前沿 AI 公司都在不斷髮現這樣的最佳化方案,通常提升幅度為 1.2 倍,有時是 2 倍,偶爾甚至能達到 10 倍。由於更智慧的 AI 價值極高,成本效率的提升幾乎總是被用於訓練更強的模型,而不是降低總支出——換句話說,公司只會在更大的規模上投入更多資源。
從歷史趨勢來看,由於演算法和硬體的改進,AI 訓練的計算成本 每年下降約 4 倍。這意味著,僅靠行業的正常發展,2024 年訓練一個模型的成本,理應比 2023 年低 3 到 4 倍。
同時,訓練成本的下降也帶動了推理成本的下降。比如,Claude 3.5 Sonnet 相較 GPT-4 晚了 15 個月釋出,但幾乎在所有基準測試中都勝出,同時 API 價格也下降了 約 10 倍。
訓練正規化的變化
AI 訓練方法也在不斷演變。從 2020 年到 2023 年,行業的主要擴充套件方式是增加預訓練規模,即在海量網際網路文字上訓練模型,然後輔以少量額外訓練。而 2024 年,強化學習(RL)訓練 成為了新的關鍵突破口。這一方法顯著提升了 AI 在數學、程式設計競賽等推理任務上的表現。例如,OpenAI 在 9 月釋出的 o1-preview 模型,就採用了這一技術。
我們仍處於 RL 訓練擴充套件的早期階段。現階段,即便只額外投入 100 萬美元進行 RL 訓練,也能帶來巨大收益。公司們正加速擴大 RL 訓練規模,但目前 AI 仍處於一個獨特的拐點——這意味著只要起點足夠強,短期內多個公司都能推出效能相近的模型。
阿莫迪指出以上三點有助於理解 DeepSeek 最近的釋出。大約一個月前,DeepSeek 推出了 DeepSeek-V3,一個僅進行預訓練的模型。隨後,上週他們釋出了 R1,加入了第二階段的強化學習訓練。
阿莫迪表示,DeepSeek-V3 其實是一個值得關注的創新。作為預訓練模型,它在某些任務上接近了美國最先進模型的效能,同時訓練成本顯著降低,儘管在現實世界任務,如編碼能力等方面,Claude 3.5 Sonnet 仍遙遙領先。DeepSeek 團隊在鍵值快取管理和專家混合架構等方面做出了一些真正出色的工程最佳化。
但阿莫迪認為,有幾點需要澄清:
DeepSeek 並沒有“用 600 萬美元做到美國 AI 公司花費數十億美元才能實現的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一箇中等規模的模型,訓練成本達 數千萬美元,遠不是數十億美元級別。 並且,Claude 3.5 Sonnet 訓練於 9-12 個月前,而 DeepSeek 的模型訓練於 2023 年 11 月至 12 月,即便如此,Claude 3.5 Sonnet 在多個關鍵評估中仍明顯領先。 DeepSeek 的訓練成本並未突破行業趨勢。如果成本曲線下降的歷史趨勢是每年約 4 倍,那麼按照正常業務發展——即 2023 年和 2024 年的成本下降趨勢——我們現在應該會看到一個比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。 然而,DeepSeek-V3 的效能比這些美國前沿模型差一些——假設在擴充套件曲線上差約 2 倍,這已經是對 DeepSeek-V3 相當慷慨的估計了——這意味著,如果 DeepSeek-V3 的訓練成本比一年前開發的美國當前模型低約 8 倍,那其實完全符合正常趨勢。 我雖不便給出確切數字,但從前面的分析可以看出,即使接受 DeepSeek 的訓練成本資料,他們也只是處於趨勢線上,甚至可能還未完全達到。 比如,這比原始 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異(10 倍)要小,而且 3.5 Sonnet 本身也是一個比 GPT-4 更好的模型。這些都表明,DeepSeek-V3 並非獨特的突破,也沒有從根本上改變 LLM 的經濟性,它只是持續成本降低曲線上一個預期的點。 不同的是,這次第一個展示預期成本降低的公司是中國的,這在以往從未有過,具有重大的地緣政治意義。不過,美國公司很快也會跟上這一趨勢——他們不會透過抄襲 DeepSeek 來實現成本降低,而是因為他們自身也在沿著常規的成本降低趨勢發展。 DeepSeek 不是第一個實現成本最佳化的公司,但它是第一個來自中國的公司。這一點在地緣政治上意義重大。但同樣,美國 AI 公司也會很快跟進——並不是透過抄襲 DeepSeek,而是因為它們本就沿著同樣的技術路線前進。
此外,阿莫迪指出,DeepSeek 擁有50000 顆 Hopper 代 GPU,估值約 10 億美元,與主要美國 AI 公司持有的晶片規模相差 2-3 倍。這意味著 DeepSeek 的整體投入並不比美國 AI 實驗室少太多。
阿莫迪表示,上週釋出的 R1 之所以引發關注(甚至導致英偉達股價下跌 17%),並不是因為它在技術上比 V3 更具創新性。它的強化學習訓練本質上只是複製了 OpenAI 在 o1-preview 模型中的做法。由於 AI 訓練仍處於 RL 擴充套件的早期,幾家公司目前能產出相似水平的模型,但這一狀況不會持續太久,隨著擴充套件規模的擴大,領先者很快會拉開差距
OpenAI首席研究員Mark Chen在社交媒體上對DeepSeek的成就表示祝賀:
“祝賀DeepSeek成功研發出o1級推理模型!他們的研究論文表明,他們獨立發現了我們在實現o1過程中所採用的一些核心思想”
但Chen隨即將焦點轉移到成本問題上,認為"外界對成本優勢的解讀有些過頭"。他提出了"雙軸最佳化"(pre-training and reasoning)的概念,暗示OpenAI在成本控制方面同樣有能力。
Chen還提到了"蒸餾技術"的成熟和"成本與能力解耦"的趨勢,強調OpenAI在模型壓縮和最佳化技術方面的探索。他特別指出,"低成本服務模型(尤其是在較高延遲下)並不意味著擁有更強的模型能力"。
最後,Chen表示OpenAI將繼續在"降低成本"和"提升能力"兩個方向上"雙管齊下",並承諾"今年會發布更優秀的模型"。
紐約大學教授、AI專家Gary Marcus則認為,DeepSeek的出現對OpenAI構成了實質性威脅。
他指出,"DeepSeek基本上免費提供了OpenAI想要收費的東西。"Marcus認為,這可能會嚴重影響OpenAI的商業模式。
Marcus還強調,DeepSeek比OpenAI更開放,這將吸引更多人才。他質疑OpenAI 1570億美元的估值,認為在每年損失約50億美元的情況下,這一估值難以證明合理性。
⭐星標華爾街見聞,好內容不錯過⭐
本文不構成個人投資建議,不代表平臺觀點,市場有風險,投資需謹慎,請獨立判斷和決策。
覺得好看,請點“在看”