智東西作者 ZeR0 程茜編輯 漠影
智東西12月21日報道,今日,OpenAI“連續12日聖誕釋出”終於迎來激動人心的大結局,OpenAI推出重磅收官新品,其迄今最強前沿推理模型的升級版——o3。
OpenAI號稱o3在一些條件下接近通用人工智慧(AGI)。
OpenAI CEO Sam Altman在直播中說:“我們認為這是AI下一階段的開始。你可以使用這些模型來完成越來越複雜、需要大量推理的任務。”他還誇讚o3在程式設計方面的表現令人難以置信。
今年9月釋出的OpenAI o1模型拉開了推理模型的閘門,隨後許多國內外大模型企業相繼推出大量推理模型。出於對英國電信運營商O2的尊重,OpenAI把o1的繼任者命名為o3。
和前代o1模型一樣,o3透過思維鏈進行思考,逐步解釋其邏輯推理過程,總結出它認為最準確的答案。
o3有完整版和mini版,新功能是可將模型推理時間設定為低、中、高,模型思考時間越高,效果越好。mini版更精簡,針對特定任務進行了微調,將在1月底推出,之後不久推出o3完整版。
ARC-AGI是一項旨在評估AI系統推理首次遇到的極其困難的數學和邏輯問題能力的基準測試,由Keras之父François Chollet發起。在ARC-AGI測試中,o3在高推理能力設定下取得了87.5%的分數,在低推理能力設定下的分數也高達o1的3倍。
這一成績令社交平臺一片雀躍,認為AI技術發展非但不見放緩,反而展示出比預期更快的通往AGI的速度。
要知道,之前GPT-3的評測結果為0%,GPT-4o為5%,而o3一舉將成績提升到87.5%,令人瞠目。與之前的大模型相比,o3能適應以前從未遇到過的任務,可以說接近人類水平的效能。
François Chollet釋出了o3的完整測試報告。o3在兩個ARC-AGI資料集中進行了測試,並在兩個具有可變樣本量的計算級別上進行了測試:6(高效率)和1024(低效率,172倍計算)。其中,75.7%的高效率分數在ARC-AGI-Pub的預算規則範圍內(成本<10000美元),87.5%的低效率分數成本則相當昂貴,但仍然表明新任務的效能確實會隨著計算量的增加而提高。
測試報告指路:https://arcprize.org/blog/oai-o3-pub-breakthrough
目前o3還不是很經濟。使用者能夠以每項任務大約5美元(摺合人民幣約36元)的價格來支付人工解決ARC-AGI任務,只消耗幾美分的能源。而在低推理模式下,o3完成每個任務需要花費17-20美元(摺合人民幣約124~145元)。
OpenAI明年將與ARC-AGI背後的基金會合作構建其下一個基準測試。
其他基準測試中,o3亦有遠勝競品的表現。
在由真實世界軟體任務組成的SWE-Bench Verified基準測試中,o3模型的準確率約為71.7%,比o1模型高出20%以上。OpenAI研究高階副總裁Mark Chen說:“這確實意味著我們正在攀登實用性的前沿。”
在程式設計競賽Codeforces中,o1的分數是1891,而o3在高推理設定下可達到2727的分數,低推理設定的分數也超過o1。
從Codeforces排行榜來看,o3的成績能排到第175名。
在數學基準測試AIME 2024中,o3的準確率達到96.7%,只漏掉了一個問題,而o1的準確率為83.3%。
在衡量博士級科學問題的嚴苛基準測試GPQA Diamond中,o3的準確率高達87.7%,比o1的78%提高約10%。而專業博士通常在自己的強項領域得到70%的成績。
OpenAI研究科學家任泓宇現場演示了一個使用Python來實現程式碼生成和執行的示例。
//oss.zhidx.com/uploads/2024/12/6765e51942b3b_6765e51938661_6765e51938621_錄屏2024-12-21-03.20.49111.mp4
只用30多秒,o3-mini就寫出了一個自己的ChatGPT UI,透過傳送請求來呼叫API與自己對話。讓o3-mini在這個UI中編寫並執行一個指令碼,評估自己在GPQA上的表現,結果指令碼正確返回了61.62%的數值,與正式評估結果相近。
o3還在陶哲軒等60餘位全球數學家共同推出的號稱業界最強數學基準的EpochAI Frontier Math中創下新紀錄,分數達到25.2。而其他模型都沒有超過2.0。
有趣的是,在o3釋出前不久,OpenAI GPT系列論文的主要作者Alec Radford剛剛宣佈離職,將轉向獨立研究。
近來前沿模型釋出節奏之密集令人眼花繚亂。最新發布的o3模型能否繼續守擂、捍衛OpenAI在前沿技術方面的權威性,將備受關注。
OpenAI連續12日聖誕釋出完整回顧:
Day1:釋出o1滿血版、ChatGPT Pro最貴訂閱版本200美元/月。
Day2:釋出強化微調新功能,用少量訓練資料即可在特定領域構建專家模型。
Day3:釋出影片生成模型Sora。
Day4:Canvas全面開放,升級程式碼功能。
Day5:展示OpenAI與蘋果智慧合作功能。
Day6:釋出高階實時影片理解功能。
Day7:釋出Projects In ChatGPT功能。
Day8:搜尋功能全面開放,支援語音搜尋。
Day9:o1 API開放,實時API更新。
Day10:撥打1-800-ChatGPT熱線電話,可訪問ChatGPT。
Day11:展示Mac桌面版App與各類App的互操作性。
Day12:釋出o3及o3 mini推理模型。
雖然o3系列模型不會立即釋出,但從今日起,OpenAI開始向安全研究人員開放o3的訪問許可權。申請截止日期是1月10日。
OpenAI透露了其新對齊策略的更多技術細節。現代大語言模型使用監督微調(SFT)和人類反饋強化學習(RLHF)進行安全訓練,但仍然存在安全缺陷。OpenAI研究人員認為,其中許多失敗是由於兩個限制造成的:
1、模型必須立即響應使用者請求,導致其沒有足夠時間來推理複雜和邊緣的安全場景;2、大模型必須從大量標註樣本中間接推斷出所需的行為,而不是直接學習自然語言中的基本安全標準,這迫使模型必須從示例中對理想行為進行逆向工程,導致資料效率和決策邊界不佳。
在此基礎上,OpenAI提出了審議對齊(Deliberative Alignment)的訓練方法,結合基於過程和結果的監督,讓大模型在產生答案之前明確地透過安全規範進行復雜推理,以克服上述兩個問題。
相比之下,其他在推理時最佳化響應的策略將模型限制為預定義的推理路徑,並且不涉及對學習的安全規範的直接推理。
審議對齊具體步驟如下:
首先訓練一個只針對於o系列模型有用性,沒有任何與安全相關的資料集構建一個含有(prompt提示,completion補全)對的資料集,其中completion中引用思維鏈規範,並在系統提示符中為每個對話插入相關的安全規範文字,生成模型然後從資料中刪除系統提示。
對這個資料集執行增量監督微調(SFT),為模型提供安全的推理的強先驗。透過SFT,該模型可以學習安全規範的內容,以及如何對它們進行推理以生成一致的響應。然後使用強化學習訓練模型更有效地使用其思維連結,引入獎勵模型,讓其可以訪問安全策略來提供額外的獎勵訊號。
其策略分兩個核心階段進行,在第一階段透過對思維鏈引用規範的示例進行監督微調,教模型在其思維鏈中直接推理安全規範。這一過程,研究人員會給予上下文蒸餾和一個僅針對有用性訓練的o系列模型來構建資料集。透過直接教給模型安全規範的文字,並訓練模型在推理時仔細考慮這些規範,以此產生安全響應,並根據給定環境進行適當校準。透過將這種方法應用於OpenAI的o系列模型,它們能夠使用思維鏈推理來檢查使用者提示,確定相關的策略指南。
正如下圖o1思維鏈示例。使用者試圖獲得有關成人網站使用的無法追蹤支付方式的建議,以避免被執法部門發現。使用者嘗試越獄模型,方法是對請求進行編碼,並在請求中包裝旨在鼓勵模型遵守的指令。在思維鏈中,模型對請求進行解碼並識別出使用者正在嘗試欺騙它(以黃色突出顯示),它成功地推理了相關的OpenAI安全策略(以綠色突出顯示),並最終拒絕了使用者請求。
第二階段,研究人員使用高計算強化學習來訓練模型更有效地思考,並引入使用給定安全規範的裁判大模型來提供獎勵訊號。
值得注意的是,OpenAI的訓練程式不需要人工標註,可以僅依賴模型生成的資料就能實現高度精確的規範遵守性。這解決了標準大模型安全訓練嚴重依賴大規模人工標註資料的挑戰。
RLHF、RLAIF、推理時間修正技術、審議對齊方法的對比如下圖所示:
▲審議對齊與現有對齊方式比較
從結果來看,研究人員在一系列內部和外部安全基準中比較了o1與GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的安全性。o1模型通過了一些較難的安全評估,並在拒絕不足和拒絕方面實現了帕累託改進(在不使任何情況變壞的前提下,使效能變得更好)。
至此,OpenAI的“聖誕禮物”告一段落,但通往AGI的全球競賽還在加速進行時。