OpenAI最強推理模型o3釋出！但明年才能用

智東西作者 ZeR0 程茜編輯漠影

智東西12月21日報道，今日，OpenAI“連續12日聖誕釋出”終於迎來激動人心的大結局，OpenAI推出重磅收官新品，其迄今最強前沿推理模型的升級版——o3。

OpenAI號稱o3在一些條件下接近通用人工智慧（AGI）。

OpenAI CEO Sam Altman在直播中說：“我們認為這是AI下一階段的開始。你可以使用這些模型來完成越來越複雜、需要大量推理的任務。”他還誇讚o3在程式設計方面的表現令人難以置信。

今年9月釋出的OpenAI o1模型拉開了推理模型的閘門，隨後許多國內外大模型企業相繼推出大量推理模型。出於對英國電信運營商O2的尊重，OpenAI把o1的繼任者命名為o3。

和前代o1模型一樣，o3透過思維鏈進行思考，逐步解釋其邏輯推理過程，總結出它認為最準確的答案。

o3有完整版和mini版，新功能是可將模型推理時間設定為低、中、高，模型思考時間越高，效果越好。mini版更精簡，針對特定任務進行了微調，將在1月底推出，之後不久推出o3完整版。

ARC-AGI是一項旨在評估AI系統推理首次遇到的極其困難的數學和邏輯問題能力的基準測試，由Keras之父François Chollet發起。在ARC-AGI測試中，o3在高推理能力設定下取得了87.5%的分數，在低推理能力設定下的分數也高達o1的3倍。

這一成績令社交平臺一片雀躍，認為AI技術發展非但不見放緩，反而展示出比預期更快的通往AGI的速度。

要知道，之前GPT-3的評測結果為0%，GPT-4o為5%，而o3一舉將成績提升到87.5%，令人瞠目。與之前的大模型相比，o3能適應以前從未遇到過的任務，可以說接近人類水平的效能。

François Chollet釋出了o3的完整測試報告。o3在兩個ARC-AGI資料集中進行了測試，並在兩個具有可變樣本量的計算級別上進行了測試：6（高效率）和1024（低效率，172倍計算）。其中，75.7%的高效率分數在ARC-AGI-Pub的預算規則範圍內（成本<10000美元），87.5%的低效率分數成本則相當昂貴，但仍然表明新任務的效能確實會隨著計算量的增加而提高。

測試報告指路：https://arcprize.org/blog/oai-o3-pub-breakthrough

目前o3還不是很經濟。使用者能夠以每項任務大約5美元（摺合人民幣約36元）的價格來支付人工解決ARC-AGI任務，只消耗幾美分的能源。而在低推理模式下，o3完成每個任務需要花費17-20美元（摺合人民幣約124～145元）。

OpenAI明年將與ARC-AGI背後的基金會合作構建其下一個基準測試。

其他基準測試中，o3亦有遠勝競品的表現。

在由真實世界軟體任務組成的SWE-Bench Verified基準測試中，o3模型的準確率約為71.7%，比o1模型高出20%以上。OpenAI研究高階副總裁Mark Chen說：“這確實意味著我們正在攀登實用性的前沿。”

在程式設計競賽Codeforces中，o1的分數是1891，而o3在高推理設定下可達到2727的分數，低推理設定的分數也超過o1。

從Codeforces排行榜來看，o3的成績能排到第175名。

在數學基準測試AIME 2024中，o3的準確率達到96.7%，只漏掉了一個問題，而o1的準確率為83.3%。

在衡量博士級科學問題的嚴苛基準測試GPQA Diamond中，o3的準確率高達87.7%，比o1的78%提高約10%。而專業博士通常在自己的強項領域得到70%的成績。

OpenAI研究科學家任泓宇現場演示了一個使用Python來實現程式碼生成和執行的示例。

//oss.zhidx.com/uploads/2024/12/6765e51942b3b_6765e51938661_6765e51938621_錄屏2024-12-21-03.20.49111.mp4

只用30多秒，o3-mini就寫出了一個自己的ChatGPT UI，透過傳送請求來呼叫API與自己對話。讓o3-mini在這個UI中編寫並執行一個指令碼，評估自己在GPQA上的表現，結果指令碼正確返回了61.62%的數值，與正式評估結果相近。

o3還在陶哲軒等60餘位全球數學家共同推出的號稱業界最強數學基準的EpochAI Frontier Math中創下新紀錄，分數達到25.2。而其他模型都沒有超過2.0。

有趣的是，在o3釋出前不久，OpenAI GPT系列論文的主要作者Alec Radford剛剛宣佈離職，將轉向獨立研究。

近來前沿模型釋出節奏之密集令人眼花繚亂。最新發布的o3模型能否繼續守擂、捍衛OpenAI在前沿技術方面的權威性，將備受關注。

OpenAI連續12日聖誕釋出完整回顧：

Day1：釋出o1滿血版、ChatGPT Pro最貴訂閱版本200美元/月。

Day2：釋出強化微調新功能，用少量訓練資料即可在特定領域構建專家模型。

Day3：釋出影片生成模型Sora。

Day4：Canvas全面開放，升級程式碼功能。

Day5：展示OpenAI與蘋果智慧合作功能。

Day6：釋出高階實時影片理解功能。

Day7：釋出Projects In ChatGPT功能。

Day8：搜尋功能全面開放，支援語音搜尋。

Day9：o1 API開放，實時API更新。

Day10：撥打1-800-ChatGPT熱線電話，可訪問ChatGPT。

Day11：展示Mac桌面版App與各類App的互操作性。

Day12：釋出o3及o3 mini推理模型。

雖然o3系列模型不會立即釋出，但從今日起，OpenAI開始向安全研究人員開放o3的訪問許可權。申請截止日期是1月10日。

OpenAI透露了其新對齊策略的更多技術細節。現代大語言模型使用監督微調（SFT）和人類反饋強化學習（RLHF）進行安全訓練，但仍然存在安全缺陷。OpenAI研究人員認為，其中許多失敗是由於兩個限制造成的：

1、模型必須立即響應使用者請求，導致其沒有足夠時間來推理複雜和邊緣的安全場景；2、大模型必須從大量標註樣本中間接推斷出所需的行為，而不是直接學習自然語言中的基本安全標準，這迫使模型必須從示例中對理想行為進行逆向工程，導致資料效率和決策邊界不佳。

在此基礎上，OpenAI提出了審議對齊（Deliberative Alignment）的訓練方法，結合基於過程和結果的監督，讓大模型在產生答案之前明確地透過安全規範進行復雜推理，以克服上述兩個問題。

相比之下，其他在推理時最佳化響應的策略將模型限制為預定義的推理路徑，並且不涉及對學習的安全規範的直接推理。

審議對齊具體步驟如下：

首先訓練一個只針對於o系列模型有用性，沒有任何與安全相關的資料集構建一個含有（prompt提示，completion補全）對的資料集，其中completion中引用思維鏈規範，並在系統提示符中為每個對話插入相關的安全規範文字，生成模型然後從資料中刪除系統提示。

對這個資料集執行增量監督微調（SFT），為模型提供安全的推理的強先驗。透過SFT，該模型可以學習安全規範的內容，以及如何對它們進行推理以生成一致的響應。然後使用強化學習訓練模型更有效地使用其思維連結，引入獎勵模型，讓其可以訪問安全策略來提供額外的獎勵訊號。

其策略分兩個核心階段進行，在第一階段透過對思維鏈引用規範的示例進行監督微調，教模型在其思維鏈中直接推理安全規範。這一過程，研究人員會給予上下文蒸餾和一個僅針對有用性訓練的o系列模型來構建資料集。透過直接教給模型安全規範的文字，並訓練模型在推理時仔細考慮這些規範，以此產生安全響應，並根據給定環境進行適當校準。透過將這種方法應用於OpenAI的o系列模型，它們能夠使用思維鏈推理來檢查使用者提示，確定相關的策略指南。

正如下圖o1思維鏈示例。使用者試圖獲得有關成人網站使用的無法追蹤支付方式的建議，以避免被執法部門發現。使用者嘗試越獄模型，方法是對請求進行編碼，並在請求中包裝旨在鼓勵模型遵守的指令。在思維鏈中，模型對請求進行解碼並識別出使用者正在嘗試欺騙它（以黃色突出顯示），它成功地推理了相關的OpenAI安全策略（以綠色突出顯示），並最終拒絕了使用者請求。

第二階段，研究人員使用高計算強化學習來訓練模型更有效地思考，並引入使用給定安全規範的裁判大模型來提供獎勵訊號。

值得注意的是，OpenAI的訓練程式不需要人工標註，可以僅依賴模型生成的資料就能實現高度精確的規範遵守性。這解決了標準大模型安全訓練嚴重依賴大規模人工標註資料的挑戰。

RLHF、RLAIF、推理時間修正技術、審議對齊方法的對比如下圖所示：

▲審議對齊與現有對齊方式比較

從結果來看，研究人員在一系列內部和外部安全基準中比較了o1與GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的安全性。o1模型通過了一些較難的安全評估，並在拒絕不足和拒絕方面實現了帕累託改進（在不使任何情況變壞的前提下，使效能變得更好）。

至此，OpenAI的“聖誕禮物”告一段落，但通往AGI的全球競賽還在加速進行時。