時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

o1/Claude集體翻車!陶哲軒等60+頂尖數學家合力提出新數學基準

2024-11-11 16:44:48

讓大模型集體吃癟,數學題正確率通通不到2%!

獲大神卡帕西力薦,大模型新數學基準來勢洶洶——

一出手,曾在國際數學奧賽中拿下83%解題率的o1模型就敗下陣來,並且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。

所以,新挑戰者到底啥來頭??

一打聽,這個新數學基準名為FrontierMath,由Epoch AI這家非營利研究機構號召陶哲軒在內的60多位頂尖數學家提出。

這群人這次鐵了心要給AI上難度,直接原創了數百道極具挑戰性的數學問題——

從數論中計算密集型問題到代數幾何和範疇論中的抽象問題,涵蓋了現代數學的大多數主要分支。

這些題有多難呢?按數學大佬陶哲軒對這項研究的評價說:

大模型們,至少需要再戰個幾年吧。

同時,卡帕西也表示非常喜歡這一新基準,甚至樂於見到大模型們“吃癟”:

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準

FrontierMath:評估AI高階數學推理能力的新基準

今年以來,大語言模型(LLM)開始在各種數學benchmark上瘋狂刷分,而且正確率動輒90%以上。

宣傳看多了,人也麻了,於是紛紛反思——

一定是現在的基準測試“被汙染了”(比如讓AI在訓練階段提前學習基準測試中的問題)。

對此,非營利研究機構Epoch AI看不下去了,於是直接聯合60多位頂尖數學家(共獲得了14枚IMO金牌)推出FrontierMath。

這一新基準擁有數百道大模型們之前沒見過的數學題,而且難度頗高。

通常需要專業數學家花費數小時甚至數天的努力

一番實踐檢驗下,果不其然,一眾頂尖大模型紛紛折戟(包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等),解題率均不足2%。

而且即使有延長的思考時間(10,000個token)、Python訪問許可權以及執行實驗的能力,相關成功率仍然低於2%。

下面,我們具體介紹下FrontierMath。這第一關主要解決數學題的原創性。

這群數學家們被要求按照3個關鍵原則設計題目:

所有問題都是新的且未發表的,以防止資料汙染;解決方案是自動可驗證的,從而實現高效的評估;問題是“防猜測”的,在沒有正確推理的情況下解決的可能性很低;

除了出新題,為了防止資料汙染,機構還採取了其他措施。

比如為了最大限度地降低問題和解決方案在網上傳播的風險,機構鼓勵所有提交都透過安全、加密的渠道進行。

具體來說,機構採用加密通訊平臺與投稿人協調,並要求對線上儲存的任何書面材料進行加密(如加密文件)。

同時,機構依賴於核心數學家團隊專家評審這一原創驗證性方法,以識別自動化系統可能錯過的潛在相似性(專家比機器更熟悉這些研究細節)。

當然也不完全依靠人力,為了進一步保證原創性,機構還透過抄襲檢測工具Quetext和Copyscape對問題進行測試。

最終,數學家們提出了數百道原創題目,涵蓋了現代數學的大多數主要分支,從數論中計算密集型問題到代數幾何和範疇論中的抽象問題。

其中數論和組合學最多,合計約佔所有MSC2020(數學學科分類系統2020版本)的34%。

接下來,為了評估大模型在FrontierMath問題上的表現,研究開發了一個框架。

簡單說,這一框架具體執行任務的過程如下:

分析問題:模型首先分析給定的數學問題;提出策略:模型提出可能的解決方案策略;實施並執行程式碼:將這些策略轉化為可執行的Python程式碼並自動執行;接收反饋:從程式碼執行的結果中接收反饋,包括輸出和錯誤訊息;改進方法:根據實驗結果,模型會驗證中間結果,測試猜想,並可能改進其推理過程以修正潛在的錯誤;

該框架支援兩種提交方式:一種是模型可以直接給出問題的最終答案;另一種是,在提交最終答案之前,模型可以先透過程式碼執行進行實驗,以驗證其解決方案的有效性。

不過需要提醒,在提交最終答案時,模型必須遵循一些標準化格式。

比如,在答案中需包含#This is the final answer這一標記註釋,且將結果儲存在Python的pickle模組中,同時需確保提交的程式碼必須是自包含的,不依賴於先前的計算。

總之,這一評估過程將持續進行,直到模型提交了正確格式化的最終答案,或者達到了預設的標記限制(研究設定為10,000個token)。

如果模型在達到標記限制之前沒有提交最終答案,它將收到一個最終提示,要求立即提交最終答案;如果在收到該提示後模型仍然無法提供正確格式化的最終答案,則該嘗試被標記為不正確。

陶哲軒看了都說難

為了進一步驗證FrontierMath的難度,該機構還特意採訪了4位數學大佬。

包括菲爾茲獎得主陶哲軒 (2006)、蒂莫西·高爾斯 (1998)、理查德·博赫茲 (1998),以及國際數學奧林匹克競賽 (IMO) 教練陳誼廷 (Evan Chen)在內,他們一致認為這些題非常具有挑戰性。

下一步Epoch AI也計劃從四個方面持續推進:

定期評估這些領先的大模型,並觀察高階數學推理能力隨時間推移和規模擴大而提高的情況;保持難度的同時,向FrontierMath新增更多問題;在未來幾個月內釋出更多代表性問題,供大家研究討論;擴大專家審查、增加錯誤數量和改進同行評審流程來加強質量控制;

這也合了卡帕西的心意,他認為這樣的新基準應該更多,尤其是為那些看似“容易”的事情建立評估。

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準。有趣的問題是,儘管從許多方面(/evals)來看,大模型正逐步躋身頂級專家行列(如數學和編碼等),但你不會僱用他們而不是讓他們從事最瑣碎的工作如果你把問題描述整齊地放在盤子裡,他們就能解決複雜的封閉式問題,但他們很難連貫地把長長的、自主的、解決問題的序列串聯起來,而人卻會覺得非常容易。這是莫拉維克悖論的變相,他在30多年前就觀察到,對人類來說容易/困難的事情,與對計算機來說容易/困難的事情,在非直覺上可能大相徑庭。例如,人類對計算機下國際象棋印象深刻,但國際象棋對計算機來說卻很容易,因為它是一個封閉的、確定性的系統,具有離散的行動空間、完全的可觀測性等等。反之亦然,人類可以繫好鞋帶或疊好襯衫,而且根本不需要考慮太多,但這是一項極其複雜的感測運動任務,對硬體和軟體的技術水平都是挑戰。這就像不久前OpenAI釋出的魔方一樣,大多數人都把注意力集中在解魔方本身(這是微不足道的),而不是用機器人的手轉動魔方的一個面這一實際難度極高的任務。因此,我非常喜歡這個FrontierMath基準,我們應該製作更多的基準。但我也認為,如何為所有 “容易 “但其實很難的東西建立評估是一個有趣的挑戰。很長的語境視窗、連貫性、自主性、常識、有效的多模態輸入/輸出…… 我們如何建立良好的 “初級工作 “評估?就像你對團隊中任何初級實習生的期望。

網友也表示,能在這種基準測試中取得高分的大模型將大有裨益。

陶哲軒夢想的就是這樣的東西,可以連線到LEAN(微軟研究院推出的一款定理證明器),讓數學家成為編輯、顧問,偶爾處理一些真正困難的部分,而其餘部分則自動化且可證明正確。很難說一個在這次基準測試中能夠達到80%的LLM對數學家來說沒有用處。

對此,你怎麼看?

熱門資訊
  • 量子飛躍:科學家首次揭示單光子的形狀 | 2024-11-24 08:12:09
  • 22位院士齊聚“夢想”號大洋鑽探船共同探討應用前景及未來發展規劃! | 2024-11-24 08:22:53
  • 榮耀耳夾式耳機官網開啟預約:C 形橋設計、純黑配色 | 2024-11-24 09:02:41
  • OPPO Watch 4 Pro 智慧手錶“高爾夫定製版”上線掛網 | 2024-11-24 09:04:14
  • 誰在領跑?運營商前10月資料出爐 | 2024-11-24 09:22:59
  • 香港城大張其春教授/華南師大蘭亞乾《自然·通訊》:透過Te-O-P 鍵製備大尺寸二維/三維共價聚合物單晶! | 2024-11-24 09:27:54
  • 康奈爾大學的創新顯微鏡DEEPscope實現了前所未有的深度和廣域大腦成像 | 2024-11-24 09:28:00
  • “這是中國的非凡機遇,德日遠遠落後了” | 2024-11-24 09:33:24
  • 沈向洋對話黃仁勳:AGI將帶來怎樣的革命性影響? | 2024-11-24 09:33:28
  • 德國工資太高,大眾汽車勞動力成本遠超競爭對手 | 2024-11-24 09:33:31
  • 華為新目標:鴻蒙應用,半年到一年內10萬個 | 2024-11-24 09:40:52
  • 頂流博主怒噴特斯拉無線充電,但他這回真就噴錯了 | 2024-11-24 09:41:04
  • RTX 5090面積比4090暴增22%!成RTX 2080 Ti以來最大晶片 | 2024-11-24 09:56:36
  • 殺瘋了?美國或對華實施新出口禁令,涉200家中國 AI 和晶片企業 | 2024-11-24 10:00:59
  • 賣一臺車虧10萬,蔚來李斌慌不慌? | 2024-11-24 10:03:21
  • 瓦爾基里臺式電腦機箱 VK03-M 開啟預售,首發 299 元 | 2024-11-24 10:06:17
  • 臺積電官宣1.6奈米,迎接新的設計挑戰! | 2024-11-24 10:23:26
  • 雷神銀翼 F60 投影儀開啟預售,1499 元 | 2024-11-24 10:41:00
  • 中國中化:航空輪胎突破,年產 10 萬條 | 2024-11-24 10:43:39
  • 最強X3D神U來了!AMD銳龍9 9950X3D將於2025年1月釋出:144MB快取一騎絕塵 | 2024-11-24 10:48:40
  • C919 飛機 APU 系統揚雪適航符合性試驗圓滿完成 | 2024-11-24 11:25:20
  • 英偉達 Blackwell 晶片又又又曝問題!老黃大半年沒搞定,微軟們被迫換貨、換方案 | 2024-11-24 11:52:07
  • 黃仁勳獲香港科技大學榮譽博士親自送10張4060 Ti顯示卡 網友:不缺錢 應該送最好的 | 2024-11-24 12:03:33
  • 準系統549元 大唐推出MAX N100迷你主機:Intel N100、雙千兆網口 | 2024-11-24 12:14:35
  • 長虹 100 英寸電視 100Q10T Max 上市,19997 元 | 2024-11-24 12:49:57
  • 全球科技早參丨馬斯克腦機公司獲准在加拿大啟動首個臨床試驗;OpenAI據傳正在開發網路瀏覽器;蘋果被曝正在開發LLM Siri以與ChatGPT競爭 | 2024-11-24 13:26:28
  • 新書揭秘黃仁勳1997年豪言:我們要消滅Intel! | 2024-11-24 13:47:26
  • 央企運營商取暖費還有沒有?怎麼發? | 2024-11-24 13:47:30
  • Intel這還怎麼追!AMD兩大殺招:玩家直呼良心 | 2024-11-24 13:53:54
  • 天鋇遊刃 X 迷你主機 GODX 開啟預售,首發 3279 元 | 2024-11-24 13:53:57
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們