時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

LeCun痛批矽谷傲慢病!圈內爆火長文

2025-02-02 09:17:28

新智元報道

編輯:Aeneas

【新智元導讀】奧特曼罕見地承認了自己犯下的「歷史錯誤」,LeCun發文痛批矽谷一大常見病——錯位優越感。DeepSeek的終極意義在哪?圈內熱轉的這篇分析指出,相比R1,R1-Zero具有更重要的研究價值,因為它打破了終極的人類輸入瓶頸!

DeepSeek再度創造歷史。

居然能逼得OpenAI CEO奧特曼承認:「我們在開源/開放權重AI模型方面,一直站在了歷史的錯誤一邊。」

LeCun也發文指出,矽谷圈子的常見病,就是一種錯位的優越感。

高階階段的症狀,是認為小圈子就能壟斷好的想法。而晚期症狀就是,假設來自他人的創新都是靠作弊。

DeepSeek的最大意義在哪裡?

ARC Prize聯合創始人Mike Knoop發出長文中總結道——R1-Zero打破了最終的人類輸入瓶頸——專家CoT標註!其中一個例子,就是監督微調(SFT)。

從R1-Zero到AGI,一切都與效率有關。

另一個值得注意的觀點就是:相比R1,R1-Zero具有更重要的研究價值。

這是因為,R1-Zero完全依賴強化學習(RL),而不使用人類專家標註的監督微調(SFT)。

這就表明,在某些領域,SFT並非實現準確清晰CoT的必要條件,完全有可能讓AI透過純粹的RL方法實現廣泛推理能力。

以下為Mike Knoop的完整分析。

從此,推理計算需求激增

上週,DeepSeek釋出了他們新的R1-Zero和R1「推理」系統,在ARC-AGI-1基準測試上的表現可與OpenAI的o1系統相媲美。

R1-Zero、R1和o1(低算力模式)都取得了15-20%的得分,而GPT-4o僅為5%——而這已是多年純LLM scaling的巔峰成果。

根據本週美國市場的反應,公眾也開始理解了純LLM scaling的侷限性。

然而,大多數人仍沒有意識到推理計算需求即將激增的問題。

2024年12月,OpenAI釋出了一個新的突破性系統o3,經過驗證,該系統在低算力模式下得分76%,高算力模式下得分88%。

o3系統首次展示了計算機在面對全新、未知問題時進行適應的通用能力。

儘管o3在ARC-AGI-1基準測試中取得了突破性的成績,但這一科技大事件卻在主流媒體中幾乎未被報道,也未引起廣泛關注。

這是AI和電腦科學領域的一個極其重要的時刻,這些系統值得深入研究。

然而,由於o1和o3是閉源的,我們只能依靠推測進行分析。

幸運的是,藉助ARC-AGI-1,以及現在(幾乎)開源的R1-Zero和R1,我們能夠進一步加深對這一領域的理解。

這裡的「幾乎」指的是,DeepSeek並未公佈從零開始復現其模型權重的方法。

特別值得注意的是,相比R1,R1-Zero具有更重要的研究價值。

R1-Zero比R1更值得分析:它消除了人為瓶頸

在對o1和o3的分析中,ARC Prize團隊對這些推理系統的工作原理進行了推測。

它們的關鍵思路如下:

為特定問題領域生成思維鏈(CoT)。

使用人工專家(「監督微調」SFT)和自動化機器(「強化學習」RL)的組合對中間的CoT步驟進行標註。

利用(2)中標註的資料訓練基礎模型。

在測試時,模型會基於這一推理過程進行迭代推理。

下圖回顧了用於各模型用於迭代取樣的技術,及其在ARC-AGI-1評分的相關情況。

隨著DeepSeek發表的新研究,ARC Prize團隊就可以更好地驗證自己的推測。

一個關鍵的發現是,LLM推理系統在適應新穎性(以及提高可靠性)方面的提升,主要沿著以下三個維度展開:

為CoT過程模型的訓練新增人工標註,即SFT(監督微調)。

使用CoT搜尋而非線性推理(即每個步驟並行進行CoT推理)。

進行整體CoT取樣(即並行推理整個軌跡)。

第(1)點受到人工資料生成的限制,因此決定了哪些領域的推理系統能從中受益最大。

例如,在o1系統上,MMLU中的專業法律類目得分遠低於數學和邏輯類目,這令人頗感意外。

第(2)和(3)點的主要瓶頸在於計算效率。

o1和o3都在ARC-AGI-1基準測試上表現出對推理計算量的對數式改進,即它們在測試時使用越多的計算資源,基準準確率就越高。

同時,不同的計算方式會影響這條曲線在x軸上的位置。

ARC Prize團隊認為,DeepSeek最有趣的做法是單獨釋出了R1-Zero。R1-Zero不使用SFT(即不依賴人工標註),完全依賴強化學習(RL)。

R1-Zero和R1在ARC-AGI-1上的得分高度一致,分別為14%和15%。

此外,DeepSeek自己釋出的基準測試結果也表明R1-Zero和R1的表現相近,例如在 MATH AIME 2024上的得分分別為71%和76%(相比之下,基礎模型DeepSeek V3的得分僅為約40%)。

在論文中,R1-Zero的作者指出:「DeepSeek-R1-Zero在可讀性較差和語言混雜等方面存在挑戰」,這一點也在網路上得到了印證。

然而,在ARC Prize團隊的測試中,他們卻幾乎沒有發現R1-Zero在ARC-AGI-1上表現出不連貫性,而這一測試任務與該系統透過強化學習訓練的數學和程式設計領域相似。

綜合這些發現,ARC Prize團隊得出了以下結論:

在具有強可驗證性的領域,SFT(即人工專家標註)並非實現準確且清晰的 CoT(思維鏈)推理的必要條件。

R1-Zero的訓練過程能夠透過RL最佳化,在token空間內自發構建內部的特定領域語言(DSL,Domain-Specific Language)。

SFT在提升CoT推理的跨領域泛化能力方面是必要的。

這一點符合直覺,因為語言本質上也是一種推理DSL。相同的「詞」可以在一個領域中學習,並在另一個領域中應用,就像程式一樣。

而純RL方法目前尚未能夠發現一個廣泛共享的詞彙體系,這可能會成為未來研究的一個重要方向。

最終,R1-Zero展示了一種潛在的擴充套件路徑——即使在訓練資料採集階段,也完全消除了人工瓶頸。

可以肯定的是,DeepSeek 的目標是挑戰OpenAI的o3系統。

接下來的關鍵觀察點在於:SFT是否仍然是CoT搜尋和取樣的必要條件,或者是否可以構建一個類似「R2-Zero」的系統,在相同的對數式推理計算擴充套件曲線上繼續提升準確率。

根據R1-Zero的實驗結果,團隊認為,在這種假設的擴充套件版本中,SFT並不是超越ARC-AGI-1所必需的條件。

用更多資金,換取AI的可靠性

從經濟角度來看,AI領域正在發生兩大重要變化:

投入更多資金,以獲得更高的準確性和可靠性。

訓練成本正在向推理成本轉移。

這兩點都將極大地推動推理計算的需求,同時也不會抑制對更強計算資源的需求,反而會進一步增加計算需求。

AI 推理系統的價值,遠不止於提高基準測試中的準確率。

當前阻礙AI更廣泛自動化應用(即推理需求)的首要問題,就是可靠性。

ARC Prize團隊曾與數百位試圖在業務中部署AI智慧體的Zapier客戶交流過,他們的反饋高度一致:「我還不信任它們,因為它們的工作表現不夠穩定。」

以前,ARC Prize曾提出,朝著ARC-AGI方向的進展將提升AI可靠性。

LLM智慧體的主要挑戰在於,它們需要強有力的本地領域控制才能穩定執行。

而更強的泛化能力,要求AI能夠適應全新的、未見過的情況。如今,已有證據表明這一觀點是正確的。

因此,Anthropic、OpenAI、Apple等多家公司紛紛推出AI智慧體也不足為奇。

由於可靠性需求,智慧體將推動短期內的推理計算需求增長。

此外,開發者可以選擇投入更多計算資源,以提高使用者對系統的信任度。

然而,更高的可靠性並不意味著100%的準確性——但它能讓錯誤更加穩定、可預測。

這反而是可接受的,因為當準確率較低時,使用者和開發者可以透過提示詞更穩定地引導 AI行為。

過去被認為計算機無法解決的問題,如今都可以用金錢衡量其解決成本。隨著AI計算效率的提升,這些成本也將逐漸下降。

推理即訓練:AI資料獲取正規化或將永久轉變

另一個正在發生的重要變化,是用於LLM預訓練的資料來源。

過去,大多數訓練資料要麼是購買的,要麼是從網路爬取的,要麼是由現有的LLM合成生成(例如蒸餾或資料增強)。

但推理系統提供了一種全新的選擇——生成「真實」資料,而非傳統意義上的「合成」資料。

AI行業通常將「合成資料」視為質量較低的資料,這些資料通常是透過LLM迴圈生成的,僅僅是為了增加訓練資料的總體規模,但其收益會逐漸遞減。

如今,藉助推理系統和驗證器,我們可以創造全新的、有效的資料來進行訓練。這可以透過兩種方式實現:

離線生成 ——開發者支付費用來建立資料。

推理時生成 ——終端使用者支付費用來建立資料。

這是一種引人注目的經濟模式轉變,可能會導致AI系統開發者之間出現「贏家通吃」的局面。

擁有最多付費使用者的AI公司將擁有巨大的資料壟斷優勢,因為這些使用者在無形中資助了新高質量資料的建立,而這些資料反過來又進一步提升模型能力,使其更受使用者青睞……由此形成一個自增強的良性迴圈。

如果我們能夠突破人類專家CoT標註的瓶頸,並構建一個極高效的搜尋/合成+驗證系統來自動生成新資料,那麼可以預見,未來將會有大量計算資源投入到這些推理系統中。

因為這些系統的訓練效果將直接與資金投入和資料輸入量掛鉤,也就是說,只要投入資金和原始資料,模型就會變得更強。

最終,這種AI訓練模式將徹底取代基於人類生成資料的預訓練方法。

結論:DeepSeek推動全世界科學發展

隨著推理需求的增長變得更加明確,市場將繼續經歷調整。

AI 系統的效率提升不僅會推動更多的應用,這不僅符合傑文斯悖論,更重要的是,更高的計算效率解鎖了全新的訓練正規化。

隨著R1的開源和可復現性,越來越多的個人和團隊將探索CoT和搜尋技術的極限。

這將幫助我們更快地釐清當前AI研究的前沿在哪裡,並推動一波技術創新浪潮,從而加速通向 AGI的程序。

已經有幾位研究者告訴ARC Prize團隊,他們計劃在2025年ARC獎中使用R1風格的系統,這讓人非常期待看到最終的結果。

R1的開源,對整個世界來說都是一件好事。DeepSeek推動了科學的前沿發展,併為AI 研究帶來了新的突破。

參考資料:

https://arcprize.org/blog/r1-zero-r1-results-analysis

熱門資訊
  • 祝賀!上海交通大學最新Nature | 2025-02-07 14:19:25
  • AMD 推出中國市場專屬顯示卡 RX 7650 GRE:8GB 視訊記憶體,2049 元起 | 2025-02-07 14:20:39
  • 華為新款耳機透過Eurofins認證:電池和充電規格曝光 | 2025-02-07 14:20:44
  • 2024年Q4全球膝上型電腦出貨量達5450萬臺 聯想第一 | 2025-02-07 14:28:31
  • 頂蓋整合觸控板功能,Kidwants 推出 KN1 迷你主機 | 2025-02-07 14:34:35
  • 機構:去年AI PC未能提振膝上型電腦市場,相比前年低點僅增5% | 2025-02-07 14:56:50
  • AMD RX 7650 GRE開啟預售 8GB視訊記憶體國行售價2049元起 | 2025-02-07 15:14:03
  • Steam Deck 加持,AMD 主機晶片出貨額突破 1 億美元 | 2025-02-07 15:14:21
  • 小米王化:小米眼鏡官微帳號為多年前申請,並非新上線 | 2025-02-07 15:41:41
  • 六代機能飛4倍音速?中國成功測試TBCC組合迴圈引擎:4馬赫穩定執行 | 2025-02-07 15:44:43
  • 最新細節!美撞機事故黑鷹“關閉關鍵追蹤技術” | 2025-02-07 15:48:29
  • 延續透明美學,Nothing Head(1)無線耳機曝光 | 2025-02-07 15:57:30
  • 國際首個!河南農業大學院士團隊博士研究生以第一作者身份在一區Top期刊(IF5y=8.4)上發表研究成果 | 2025-02-07 16:00:58
  • M4 Ultra效能提升不止一點點 蘋果這次真放大招了? | 2025-02-07 16:22:14
  • DeepSeek好用,也要警惕蹭熱點的無良商家 | 2025-02-07 16:30:15
  • 2月7日外媒科學網站摘要:人類大腦中的微塑膠越來越多 | 2025-02-07 16:30:26
  • 別被誤導 | 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型?? | 2025-02-07 16:30:33
  • DeepSeek清晰明確回答阿波羅載人登月疑問 | 2025-02-07 16:30:37
  • 哈工大《Nature》子刊:新突破!鈣鈦礦鐵電體高度可調壓電效能研究 | 2025-02-07 16:31:17
  • 中國工程院院士、共和國勳章獲得者黃旭華在武漢逝世,享年99歲 | 2025-02-07 16:31:23
  • 比爾·蓋茨:英特爾迷失了方向,我曾希望他們復甦,但太難了 | 2025-02-07 16:31:31
  • 晚點對話何小鵬:為做一個真正的 CEO,我付出了怎樣的代價(上) | 2025-02-07 16:41:23
  • RTX 50系顯示卡發售!價格翻倍一卡難求,英偉達遭遇產能危機? | 2025-02-07 16:41:55
  • 英偉達聯手MIT清北釋出SANA 1.5!線性擴散Transformer再刷文生圖新SOTA | 2025-02-07 17:04:11
  • 關於2025年清潔電器的機遇和挑戰,DeepSeek是這麼回答的! | 2025-02-07 17:09:35
  • 晚點對話何小鵬:為做一個真正的 CEO,我付出了怎樣的代價(下) | 2025-02-07 17:12:16
  • 首發銳龍7 H 260!華碩無畏16銳龍版2025上架:國補價3999元 | 2025-02-07 17:17:52
  • 曝REDMI將釋出旗艦芯小屏平板:LCD螢幕+7500mAh | 2025-02-07 17:18:20
  • 美航空專家急了:不賣中國,他回頭自己造了就丸辣! | 2025-02-07 17:22:46
  • 烽火通訊長江計算 G440K V2 伺服器實現 DeepSeek 推理適配和最佳化 | 2025-02-07 17:46:56
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們