時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

OpenAI最強推理模型o3釋出!但明年才能用

2024-12-21 06:24:16

智東西作者 ZeR0 程茜編輯 漠影

智東西12月21日報道,今日,OpenAI“連續12日聖誕釋出”終於迎來激動人心的大結局,OpenAI推出重磅收官新品,其迄今最強前沿推理模型的升級版——o3。

OpenAI號稱o3在一些條件下接近通用人工智慧(AGI)。

OpenAI CEO Sam Altman在直播中說:“我們認為這是AI下一階段的開始。你可以使用這些模型來完成越來越複雜、需要大量推理的任務。”他還誇讚o3在程式設計方面的表現令人難以置信。

今年9月釋出的OpenAI o1模型拉開了推理模型的閘門,隨後許多國內外大模型企業相繼推出大量推理模型。出於對英國電信運營商O2的尊重,OpenAI把o1的繼任者命名為o3。

和前代o1模型一樣,o3透過思維鏈進行思考,逐步解釋其邏輯推理過程,總結出它認為最準確的答案。

o3有完整版和mini版,新功能是可將模型推理時間設定為低、中、高,模型思考時間越高,效果越好。mini版更精簡,針對特定任務進行了微調,將在1月底推出,之後不久推出o3完整版。

ARC-AGI是一項旨在評估AI系統推理首次遇到的極其困難的數學和邏輯問題能力的基準測試,由Keras之父François Chollet發起。在ARC-AGI測試中,o3在高推理能力設定下取得了87.5%的分數,在低推理能力設定下的分數也高達o1的3倍。

這一成績令社交平臺一片雀躍,認為AI技術發展非但不見放緩,反而展示出比預期更快的通往AGI的速度。

要知道,之前GPT-3的評測結果為0%,GPT-4o為5%,而o3一舉將成績提升到87.5%,令人瞠目。與之前的大模型相比,o3能適應以前從未遇到過的任務,可以說接近人類水平的效能。

François Chollet釋出了o3的完整測試報告。o3在兩個ARC-AGI資料集中進行了測試,並在兩個具有可變樣本量的計算級別上進行了測試:6(高效率)和1024(低效率,172倍計算)。其中,75.7%的高效率分數在ARC-AGI-Pub的預算規則範圍內(成本<10000美元),87.5%的低效率分數成本則相當昂貴,但仍然表明新任務的效能確實會隨著計算量的增加而提高。

測試報告指路:https://arcprize.org/blog/oai-o3-pub-breakthrough

目前o3還不是很經濟。使用者能夠以每項任務大約5美元(摺合人民幣約36元)的價格來支付人工解決ARC-AGI任務,只消耗幾美分的能源。而在低推理模式下,o3完成每個任務需要花費17-20美元(摺合人民幣約124~145元)。

OpenAI明年將與ARC-AGI背後的基金會合作構建其下一個基準測試。

其他基準測試中,o3亦有遠勝競品的表現。

在由真實世界軟體任務組成的SWE-Bench Verified基準測試中,o3模型的準確率約為71.7%,比o1模型高出20%以上。OpenAI研究高階副總裁Mark Chen說:“這確實意味著我們正在攀登實用性的前沿。”

在程式設計競賽Codeforces中,o1的分數是1891,而o3在高推理設定下可達到2727的分數,低推理設定的分數也超過o1。

從Codeforces排行榜來看,o3的成績能排到第175名。

在數學基準測試AIME 2024中,o3的準確率達到96.7%,只漏掉了一個問題,而o1的準確率為83.3%。

在衡量博士級科學問題的嚴苛基準測試GPQA Diamond中,o3的準確率高達87.7%,比o1的78%提高約10%。而專業博士通常在自己的強項領域得到70%的成績。

OpenAI研究科學家任泓宇現場演示了一個使用Python來實現程式碼生成和執行的示例。

//oss.zhidx.com/uploads/2024/12/6765e51942b3b_6765e51938661_6765e51938621_錄屏2024-12-21-03.20.49111.mp4

只用30多秒,o3-mini就寫出了一個自己的ChatGPT UI,透過傳送請求來呼叫API與自己對話。讓o3-mini在這個UI中編寫並執行一個指令碼,評估自己在GPQA上的表現,結果指令碼正確返回了61.62%的數值,與正式評估結果相近。

o3還在陶哲軒等60餘位全球數學家共同推出的號稱業界最強數學基準的EpochAI Frontier Math中創下新紀錄,分數達到25.2。而其他模型都沒有超過2.0。

有趣的是,在o3釋出前不久,OpenAI GPT系列論文的主要作者Alec Radford剛剛宣佈離職,將轉向獨立研究。

近來前沿模型釋出節奏之密集令人眼花繚亂。最新發布的o3模型能否繼續守擂、捍衛OpenAI在前沿技術方面的權威性,將備受關注。

OpenAI連續12日聖誕釋出完整回顧:

Day1:釋出o1滿血版、ChatGPT Pro最貴訂閱版本200美元/月。

Day2:釋出強化微調新功能,用少量訓練資料即可在特定領域構建專家模型。

Day3:釋出影片生成模型Sora。

Day4:Canvas全面開放,升級程式碼功能。

Day5:展示OpenAI與蘋果智慧合作功能。

Day6:釋出高階實時影片理解功能。

Day7:釋出Projects In ChatGPT功能。

Day8:搜尋功能全面開放,支援語音搜尋。

Day9:o1 API開放,實時API更新。

Day10:撥打1-800-ChatGPT熱線電話,可訪問ChatGPT。

Day11:展示Mac桌面版App與各類App的互操作性。

Day12:釋出o3及o3 mini推理模型。

雖然o3系列模型不會立即釋出,但從今日起,OpenAI開始向安全研究人員開放o3的訪問許可權。申請截止日期是1月10日。

OpenAI透露了其新對齊策略的更多技術細節。現代大語言模型使用監督微調(SFT)和人類反饋強化學習(RLHF)進行安全訓練,但仍然存在安全缺陷。OpenAI研究人員認為,其中許多失敗是由於兩個限制造成的:

1、模型必須立即響應使用者請求,導致其沒有足夠時間來推理複雜和邊緣的安全場景;2、大模型必須從大量標註樣本中間接推斷出所需的行為,而不是直接學習自然語言中的基本安全標準,這迫使模型必須從示例中對理想行為進行逆向工程,導致資料效率和決策邊界不佳。

在此基礎上,OpenAI提出了審議對齊(Deliberative Alignment)的訓練方法,結合基於過程和結果的監督,讓大模型在產生答案之前明確地透過安全規範進行復雜推理,以克服上述兩個問題。

相比之下,其他在推理時最佳化響應的策略將模型限制為預定義的推理路徑,並且不涉及對學習的安全規範的直接推理。

審議對齊具體步驟如下:

首先訓練一個只針對於o系列模型有用性,沒有任何與安全相關的資料集構建一個含有(prompt提示,completion補全)對的資料集,其中completion中引用思維鏈規範,並在系統提示符中為每個對話插入相關的安全規範文字,生成模型然後從資料中刪除系統提示。

對這個資料集執行增量監督微調(SFT),為模型提供安全的推理的強先驗。透過SFT,該模型可以學習安全規範的內容,以及如何對它們進行推理以生成一致的響應。然後使用強化學習訓練模型更有效地使用其思維連結,引入獎勵模型,讓其可以訪問安全策略來提供額外的獎勵訊號。

其策略分兩個核心階段進行,在第一階段透過對思維鏈引用規範的示例進行監督微調,教模型在其思維鏈中直接推理安全規範。這一過程,研究人員會給予上下文蒸餾和一個僅針對有用性訓練的o系列模型來構建資料集。透過直接教給模型安全規範的文字,並訓練模型在推理時仔細考慮這些規範,以此產生安全響應,並根據給定環境進行適當校準。透過將這種方法應用於OpenAI的o系列模型,它們能夠使用思維鏈推理來檢查使用者提示,確定相關的策略指南。

正如下圖o1思維鏈示例。使用者試圖獲得有關成人網站使用的無法追蹤支付方式的建議,以避免被執法部門發現。使用者嘗試越獄模型,方法是對請求進行編碼,並在請求中包裝旨在鼓勵模型遵守的指令。在思維鏈中,模型對請求進行解碼並識別出使用者正在嘗試欺騙它(以黃色突出顯示),它成功地推理了相關的OpenAI安全策略(以綠色突出顯示),並最終拒絕了使用者請求。

第二階段,研究人員使用高計算強化學習來訓練模型更有效地思考,並引入使用給定安全規範的裁判大模型來提供獎勵訊號。

值得注意的是,OpenAI的訓練程式不需要人工標註,可以僅依賴模型生成的資料就能實現高度精確的規範遵守性。這解決了標準大模型安全訓練嚴重依賴大規模人工標註資料的挑戰。

RLHF、RLAIF、推理時間修正技術、審議對齊方法的對比如下圖所示:

▲審議對齊與現有對齊方式比較

從結果來看,研究人員在一系列內部和外部安全基準中比較了o1與GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的安全性。o1模型通過了一些較難的安全評估,並在拒絕不足和拒絕方面實現了帕累託改進(在不使任何情況變壞的前提下,使效能變得更好)。

至此,OpenAI的“聖誕禮物”告一段落,但通往AGI的全球競賽還在加速進行時。

熱門資訊
  • 藍光播放器時代落幕?LG宣佈停產,實體光碟何去何從 | 2024-12-13 20:42:17
  • 華為與哈工深等最新研究成果:SPA-Bench,手機操控智慧體評估新標準 | 2024-12-13 20:44:51
  • 臺積電的下一代電晶體 | 2024-12-13 20:44:54
  • 項立剛:很多經濟學家都是美國間諜,目的是搞垮我們的經濟! | 2024-12-13 20:46:27
  • 9998 元,山靈 M8T 行動式電子管播放器本月下旬上市 | 2024-12-13 21:00:19
  • AMD兩款APU部分效能引數曝光 預計明年1月CES大展推出 | 2024-12-13 21:18:47
  • 三星代號Moohan頭顯外觀公佈 酷似滑雪鏡將於明年上市 | 2024-12-13 21:18:50
  • 谷歌釋出專為擴充套件現實設計Android XR作業系統 三星頭顯首發搭載 | 2024-12-13 21:18:52
  • M4 Ultra版Mac Pro預計明年下半年推出 或支援硬體光線追蹤 | 2024-12-13 21:18:54
  • 蘋果或取消M4 Extreme晶片 原定搭載60核CPU+160核GPU | 2024-12-13 21:18:57
  • 三星3nm GAA工藝良率提升 小摺疊機型或採用獵戶座2500晶片 | 2024-12-13 22:18:16
  • 麻省理工學院研發的超快光子處理器可帶來極高的效率 | 2024-12-13 22:25:27
  • 134億元!中國藥企再達成重磅BD | 2024-12-13 22:27:23
  • 雲深處科技自研國產機器狗 X30 交付新加坡電網 | 2024-12-13 22:27:28
  • 她是iPSC發明者之一,專注再生醫學、抗炎修復以及腫瘤免疫等三大領域,已創辦公司自主研發細胞治療產品 | 2024-12-13 22:28:33
  • 結束罷工一個月後,波音重啟737MAX生產 | 2024-12-13 22:28:37
  • 國產大型水陸兩棲飛機,AG600 完成兩項試驗試飛 | 2024-12-13 22:28:49
  • 馬斯克發文宣佈:SpaceX總部正式遷至得州,並將打造新的“星際基地”市 | 2024-12-13 22:39:44
  • 5G基站總數突破414萬!我國提前完成“十四五”5G建設目標,將有序推進5G向5G-A升級【附5G行業現狀分析】 | 2024-12-13 22:57:15
  • 革命性互聯材料,旨在拯救晶片 | 2024-12-13 23:15:03
  • 蘋果將於 2025 年初開始在印度南部組裝 AirPods | 2024-12-13 23:33:58
  • 臺積電衝刺2奈米市場,CyberShuttle為關鍵秘密武器 | 2024-12-13 23:37:43
  • 韓國研究人員開發新的無重金屬有機發光材料結構,將磷光OLED發光速度提高1000倍 | 2024-12-13 23:58:50
  • Rapidus 宣佈就 2nm GAA BSPDN 背面供電工藝同 Cadence 展開合作 | 2024-12-14 00:00:52
  • 著名通訊領域專家、華北電力大學教授趙雄文病逝,年僅61歲 | 2024-12-14 00:00:58
  • 藍戟B580 Photon 12G OC顯示卡測評 | 2024-12-14 00:05:36
  • 英特爾銳炫 B580 公版顯示卡正式開售,2049 元 | 2024-12-14 00:05:40
  • 晶片,大多很慘 | 2024-12-14 00:25:01
  • 蘋果明年將推自研藍芽和WiFi晶片,以擺脫對於博通的依賴 | 2024-12-14 00:25:08
  • 四川綿陽低空 “生命線” 首航!無人機送血提升急救速度 | 2024-12-14 00:27:18
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們