時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

DeepSeek驚豔全球,美國大模型兩巨頭齊發聲:並不比我們先進

2025-02-01 09:19:09

DeepSeek R1的橫空出世給全球AI行業帶來了新的變數。面對衝擊,美國兩大AI巨頭Anthropic與OpenAI迅速做出回應,試圖淡化市場對其技術領先地位的擔憂。

週三,Anthropic 執行長達里奧·阿莫迪 (Dario Amodei) 釋出了一篇長文討論了DeepSeek的進展,他指出DeepSeek 並沒有“用 600 萬美元做到美國 AI 公司花費數十億美元才能實現的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一箇中等規模的模型,訓練成本達數千萬美元,遠不是數十億美元級別。

他認為DeepSeek的訓練成本降低符合行業趨勢,並不代表突破性的技術成就:

如果 AI 訓練成本的下降趨勢是 每年 4 倍,如果 DeepSeek-V3 的訓練成本比一年前開發的美國當前模型低約 8 倍,那其實完全符合正常趨勢......即使接受 DeepSeek 的訓練成本資料,他們也只是處於趨勢線上,甚至可能還未完全達到。

此前一天,OpenAI首席研究員Mark Chen也對DeepSeek R1做出回應,其態度既肯定又帶有一絲微妙。

Chen承認DeepSeek"獨立發現了OpenAI在o1模型研發過程中的一些核心理念",然而,Chen隨即將焦點轉移到成本問題上,認為"外界對成本優勢的解讀有些過頭"。

但紐約大學教授、AI專家Gary Marcus認為,DeepSeek對OpenAI的影響可能比想象中更大。

阿莫迪先系統拆解了AI發展的三大定律:

規模法則

AI 的一個核心特性是 規模驅動效能提升。我和我的聯合創始人在 OpenAI 工作時,曾是最早記錄這一特性的人之一。在其他條件相同的情況下,訓練規模越大,AI 在一系列認知任務上的表現越穩定、越出色。例如,100 萬美元訓練的模型可能能解決 20% 的關鍵編碼任務,而 1000 萬美元的模型可能達到 40%,1 億美元的模型則可能提高到 60%。這種差距往往極具實際影響——再增加 10 倍的計算量,可能意味著從本科生的水平躍升至博士生的能力。因此,各公司正投入鉅額資金訓練更大規模的模型。

計算成本的下降

AI 領域不斷湧現新的最佳化思路,使模型訓練更高效。這可能是架構上的改進(例如對 Transformer 的最佳化),也可能是底層硬體的效率提升。這些創新會 降低訓練成本:如果某項技術創新帶來 2 倍的計算效率提升,那麼本需要 1000 萬美元的訓練任務,如今只需 500 萬美元即可完成。

每家前沿 AI 公司都在不斷髮現這樣的最佳化方案,通常提升幅度為 1.2 倍,有時是 2 倍,偶爾甚至能達到 10 倍。由於更智慧的 AI 價值極高,成本效率的提升幾乎總是被用於訓練更強的模型,而不是降低總支出——換句話說,公司只會在更大的規模上投入更多資源。

從歷史趨勢來看,由於演算法和硬體的改進,AI 訓練的計算成本 每年下降約 4 倍。這意味著,僅靠行業的正常發展,2024 年訓練一個模型的成本,理應比 2023 年低 3 到 4 倍。

同時,訓練成本的下降也帶動了推理成本的下降。比如,Claude 3.5 Sonnet 相較 GPT-4 晚了 15 個月釋出,但幾乎在所有基準測試中都勝出,同時 API 價格也下降了 約 10 倍。

訓練正規化的變化

AI 訓練方法也在不斷演變。從 2020 年到 2023 年,行業的主要擴充套件方式是增加預訓練規模,即在海量網際網路文字上訓練模型,然後輔以少量額外訓練。而 2024 年,強化學習(RL)訓練 成為了新的關鍵突破口。這一方法顯著提升了 AI 在數學、程式設計競賽等推理任務上的表現。例如,OpenAI 在 9 月釋出的 o1-preview 模型,就採用了這一技術。

我們仍處於 RL 訓練擴充套件的早期階段。現階段,即便只額外投入 100 萬美元進行 RL 訓練,也能帶來巨大收益。公司們正加速擴大 RL 訓練規模,但目前 AI 仍處於一個獨特的拐點——這意味著只要起點足夠強,短期內多個公司都能推出效能相近的模型。

阿莫迪指出以上三點有助於理解 DeepSeek 最近的釋出。大約一個月前,DeepSeek 推出了 DeepSeek-V3,一個僅進行預訓練的模型。隨後,上週他們釋出了 R1,加入了第二階段的強化學習訓練。

阿莫迪表示,DeepSeek-V3 其實是一個值得關注的創新。作為預訓練模型,它在某些任務上接近了美國最先進模型的效能,同時訓練成本顯著降低,儘管在現實世界任務,如編碼能力等方面,Claude 3.5 Sonnet 仍遙遙領先。DeepSeek 團隊在鍵值快取管理和專家混合架構等方面做出了一些真正出色的工程最佳化。

但阿莫迪認為,有幾點需要澄清:

DeepSeek 並沒有“用 600 萬美元做到美國 AI 公司花費數十億美元才能實現的事情”。以 Anthropic 為例,Claude 3.5 Sonnet 是一箇中等規模的模型,訓練成本達 數千萬美元,遠不是數十億美元級別。 並且,Claude 3.5 Sonnet 訓練於 9-12 個月前,而 DeepSeek 的模型訓練於 2023 年 11 月至 12 月,即便如此,Claude 3.5 Sonnet 在多個關鍵評估中仍明顯領先。 DeepSeek 的訓練成本並未突破行業趨勢。如果成本曲線下降的歷史趨勢是每年約 4 倍,那麼按照正常業務發展——即 2023 年和 2024 年的成本下降趨勢——我們現在應該會看到一個比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。 然而,DeepSeek-V3 的效能比這些美國前沿模型差一些——假設在擴充套件曲線上差約 2 倍,這已經是對 DeepSeek-V3 相當慷慨的估計了——這意味著,如果 DeepSeek-V3 的訓練成本比一年前開發的美國當前模型低約 8 倍,那其實完全符合正常趨勢。 我雖不便給出確切數字,但從前面的分析可以看出,即使接受 DeepSeek 的訓練成本資料,他們也只是處於趨勢線上,甚至可能還未完全達到。 比如,這比原始 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異(10 倍)要小,而且 3.5 Sonnet 本身也是一個比 GPT-4 更好的模型。這些都表明,DeepSeek-V3 並非獨特的突破,也沒有從根本上改變 LLM 的經濟性,它只是持續成本降低曲線上一個預期的點。 不同的是,這次第一個展示預期成本降低的公司是中國的,這在以往從未有過,具有重大的地緣政治意義。不過,美國公司很快也會跟上這一趨勢——他們不會透過抄襲 DeepSeek 來實現成本降低,而是因為他們自身也在沿著常規的成本降低趨勢發展。 DeepSeek 不是第一個實現成本最佳化的公司,但它是第一個來自中國的公司。這一點在地緣政治上意義重大。但同樣,美國 AI 公司也會很快跟進——並不是透過抄襲 DeepSeek,而是因為它們本就沿著同樣的技術路線前進。

此外,阿莫迪指出,DeepSeek 擁有50000 顆 Hopper 代 GPU,估值約 10 億美元,與主要美國 AI 公司持有的晶片規模相差 2-3 倍。這意味著 DeepSeek 的整體投入並不比美國 AI 實驗室少太多。

阿莫迪表示,上週釋出的 R1 之所以引發關注(甚至導致英偉達股價下跌 17%),並不是因為它在技術上比 V3 更具創新性。它的強化學習訓練本質上只是複製了 OpenAI 在 o1-preview 模型中的做法。由於 AI 訓練仍處於 RL 擴充套件的早期,幾家公司目前能產出相似水平的模型,但這一狀況不會持續太久,隨著擴充套件規模的擴大,領先者很快會拉開差距

OpenAI首席研究員Mark Chen在社交媒體上對DeepSeek的成就表示祝賀:

“祝賀DeepSeek成功研發出o1級推理模型!他們的研究論文表明,他們獨立發現了我們在實現o1過程中所採用的一些核心思想”

但Chen隨即將焦點轉移到成本問題上,認為"外界對成本優勢的解讀有些過頭"。他提出了"雙軸最佳化"(pre-training and reasoning)的概念,暗示OpenAI在成本控制方面同樣有能力。

Chen還提到了"蒸餾技術"的成熟和"成本與能力解耦"的趨勢,強調OpenAI在模型壓縮和最佳化技術方面的探索。他特別指出,"低成本服務模型(尤其是在較高延遲下)並不意味著擁有更強的模型能力"。

最後,Chen表示OpenAI將繼續在"降低成本"和"提升能力"兩個方向上"雙管齊下",並承諾"今年會發布更優秀的模型"。

紐約大學教授、AI專家Gary Marcus則認為,DeepSeek的出現對OpenAI構成了實質性威脅。

他指出,"DeepSeek基本上免費提供了OpenAI想要收費的東西。"Marcus認為,這可能會嚴重影響OpenAI的商業模式。

Marcus還強調,DeepSeek比OpenAI更開放,這將吸引更多人才。他質疑OpenAI 1570億美元的估值,認為在每年損失約50億美元的情況下,這一估值難以證明合理性。

⭐星標華爾街見聞,好內容不錯過⭐

本文不構成個人投資建議,不代表平臺觀點,市場有風險,投資需謹慎,請獨立判斷和決策。

覺得好看,請點“在看”

熱門資訊
  • 中國粒子物理“學術譜系”,從這7人談起 | 2024-12-20 13:19:39
  • 參展面積最大的中國品牌:TCL 宣佈參加 CES 2025 展會 | 2024-12-20 13:21:14
  • 科興製藥:GB18專案瞄準GDF-15靶點 有望進入腫瘤惡病質研發第一梯隊 | 2024-12-20 13:23:46
  • 提前1個月收到Intel銳炫B570:強行裝上B580驅動竟然能正常用! | 2024-12-20 13:30:17
  • ROG龍神3代EXTREME水冷白色版終於來了 | 2024-12-20 13:57:59
  • 快睿推出首款採用均熱板下壓風冷 VC901,標稱散熱功耗 180W | 2024-12-20 14:00:59
  • Q3印度PC市場報告:惠普奪冠,蘋果沒上榜 | 2024-12-20 14:04:38
  • 日本突破性研發亞洲首個口服幹細胞成果,中國富豪爭相赴日體驗 | 2024-12-20 14:11:48
  • BadBox 安卓殭屍網路捲土重來,感染 Yandex 電視等 19 萬臺裝置 | 2024-12-20 14:25:08
  • 谷歌釋出Android XR Apple Vision Pro的競爭者來了? | 2024-12-20 14:25:10
  • 英特爾確認已從 x86S 計劃轉向,仍致力於推動 x86 生態創新協作 | 2024-12-20 14:33:11
  • 讀懂當今科技變局,《電腦報》2024年度十大關鍵詞 | 2024-12-20 14:40:57
  • 宇瞻量產工業級 DDR5-6400 CUDIMM / CSODIMM 記憶體條,全無鉛設計 | 2024-12-20 14:41:45
  • 集特定製國防工業三屏加固筆記本亮相 | 2024-12-20 14:41:47
  • 英特爾 Wildcat Lake 處理器治具資訊現身,預計採 BGA1516 插槽 | 2024-12-20 15:25:19
  • 一加手錶3渲染圖曝光:新增數字表冠、支援心電圖、新增 LTE 連線 | 2024-12-20 15:36:06
  • 顏值效能全都要!雙旦超輕薄AI PC選購攻略華碩 a 豆 14 Air 領銜 | 2024-12-20 16:08:11
  • Marshall釋出新春限定款Emberton III:售1599元 致敬伍德斯托克音樂節 | 2024-12-20 16:08:12
  • 機械革命CES媒體開放日公佈!重磅新品等你來 | 2024-12-20 16:13:12
  • OPPO Find X8 系列元春限定版磁吸配件公佈,12 月 26 日釋出 | 2024-12-20 16:17:36
  • 聯想YOGA新機曝光 採用屏下攝像頭屏佔比吸睛 | 2024-12-20 16:17:38
  • 全部自主設計!中國大陸首條TFT基Micro-LED量產線點亮 | 2024-12-20 16:23:50
  • 一加手錶3曝光 支援ECG心電圖功能、獨立通訊 | 2024-12-20 16:25:01
  • 酷態科 10 號系列新成員即將亮相,預計為充電寶產品 | 2024-12-20 16:33:01
  • 英特爾終止x86S架構計劃:純64位設計再度戛然而止 | 2024-12-20 16:38:42
  • C939真的來了,商飛透露更多發動機細節,網友酸評:又是一臺組裝機 | 2024-12-20 16:44:49
  • 高通稱Oryon CPU含不到1%的Arm技術,收購Nuvia預計每年節省14億美元專利費 | 2024-12-20 16:44:55
  • 銘瑄Intel銳炫B580 iCraft 12G顯示卡評測:Intel顯示卡又多一個選擇 | 2024-12-20 16:49:48
  • 臺積電2奈米晶片效能提升僅15%,知情人士稱試產良率超過60% | 2024-12-20 16:50:45
  • 日媒果然敏銳!他們發現中國已經強大到他們不敢想象的地步 | 2024-12-20 16:50:48
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們