OpenAI“強化微調”：CEO：今年最大驚喜

OpenAI連續12天“王炸”的第二彈來了。不同於第一日聚焦人工智慧（AI）模型，第二日的王炸專注於服務企業等組織的一款新功能，雖然看起來不太側重於普通消費者，但據介紹它甚至可以簡易版推理模型o1 mini的效果超過本週四釋出的正式版o1、即所謂滿血o1。

美東時間12月6日週五，OpenAI在社交媒體X公佈第二日活動的主題是新功能“強化微調”（Reinforcement Fine-Tuning）。這個主題是指，企業組織將能夠透過“強化微調”微調o1 mini，滿足他們的特定需求。

OpenAI CEO Sam Altman在X發帖稱，強化微調的效果非常棒，是他今年最大的驚喜之一，期待看到大家利用這種功能的創造。

OpenAI的研究員本週五介紹，科學家、開發人員和研究人員可以根據自己的資料、而不是僅僅使用公開可用的資料，量身定製OpenAI的強大推理模型o1。不同行業的人可以使用強化學習來建立基於 o1 的專家模型，從而提高該領域的整體專業知識水平。開發者、研究者和機器學習工程師將首次能運用強化學習，打造在精通他們各自專業領域的專家模型。

OpenAI的研究員稱，強化微調並不是單單教模型模型輸出，它的運作方式是，當模型發現一個問題的時候，研究者給模型空間區仔細思考這個問題，然後評估模型給出的最終解答，運用強化學習，研究者可以強化產生正確答案的思路，抑制產生錯誤答案的思路，只需要“幾十個例子”（a few dozen examples）、甚至12個例子，模型就能以有效的新方式學習特定領域的推理。

透過強化學習，使用者可以用大模型在特定資料上訓練其他模型。這對於涉及到大量資料的複雜領域或需要專家領域知識的新研究非常有用。研究者舉例稱，最近和湯森路透合作，運用強化微調微調o1 mini，讓充當法務助理，幫助他們的法律專業人士完成大部分分析工作流。

OpenAI稱，OpenAI的定製模型平臺將支援強化學習，強化學習也是OpenAI內部用於訓練自家前沿模型的技術，如GPT-4o和o1系列模型。在OpenAi的內測中，強化微調已經在生物化學、安全、法律和醫療保健領域取得成功。OpenAI計劃，2025年初讓強化微調面向公眾釋出，目前已對企業、大學和研究院開放申請測試通道。

伯克利大學罕見遺傳病研究員 Justin Reese參與了OpenAI本週五對o1 mini模型的現場演示。演示中，研究者試圖從樣本資料池中獲取可能導致疾病的模型 ID 基因。

研究員展示了一個評估表，下圖可見，第一行是本週四OpenAI釋出的正式版o1測評表現，第二行是o1 mini的測評結果 ,第三行結果來自經過最終強化微調的o1 mini。研究員進行了三類評估，其中，top @1是測試模型給出的正確答案出現在列表最前列中的機率，top@5是正確答案出現在前五列的機率，top@max是答案出現在所有正確答案列表的機率。

如圖所示，正式版o1的測試透過率為25%，o1 mini為17%，而強化微調後的o1 mini竟然達到31%，超過了正式版o1，比正式版o1的測評結果高24%，而且相比未強化微調前，微調後的結果提高了82.3%。

據OpenAI所說，使用者可以綜合運用o1、微調和資料建立定製的小型 o1模型 o1 mini。使用者要做的就是提供資料，然後在強化微調方面，設定一個數據集和一個“評分器”，根據訓練和驗證資料集評估模型的效能，其他工作交給OpenAI。