金磊 發自 凹非寺量子位 | 公眾號 QbitAI
就在剛剛,那個掌管OpenAI安全的北大校友,OpenAI研究副總裁(安全)翁荔,離職了。
翁荔是OpenAI華人科學家、ChatGPT的貢獻者之一。
北大畢業後,翁荔在2018年加入OpenAI,後來在GPT-4專案中主要參與預訓練、強化學習和對齊、模型安全等方面的工作。
最著名的Agent公式也由她提出,即:Agent=大模型+記憶+主動規劃+工具使用。
而就在前不久,她還剛剛現身2024 Bilibili 超級科學晚活動,發表了《AI安全與“培養”之道》的主題演講。
在她宣佈離職訊息之後,包括OpenAI在內的眾多同事發來了祝福:
翁荔的離職信
在推文中,翁荔也分享了他跟團隊做的最後的道別。
以下為離職信的完整內容。
親愛的朋友們:
我做出了一個非常艱難的決定,將於11月15日離開OpenAI,這將是我在公司最後一天。
OpenAI是我成長為科學家和領導者的地方,我將永遠珍惜在這裡與每一位共事的夥伴度過的時光。OpenAI團隊一直是我的知己、導師以及我身份的一部分。
我仍然記得2017年初加入OpenAI時的那份好奇和熱情。當時我們是一群懷抱著不可能與科幻未來夢想的人。
我在這裡開始了我的全棧機器人挑戰之旅——從深度強化學習演算法,到感知,再到韌體開發——目標是教會一個簡單的機械手如何解開魔方。這花費了整個團隊兩年時間,但最終我們成功了。
當OpenAI進入GPT領域時,我們開始探索如何將最先進的AI模型應用於現實世界。我建立了第一個應用研究團隊,推出了初始版本的微調API、嵌入API和稽核端點,為應用安全工作奠定了基礎,還為早期的API客戶開發了許多新穎的解決方案。
在GPT-4釋出後,我被要求承擔新的挑戰,重新考慮OpenAI的安全系統願景,並將所有工作集中到一個負責整個安全體系的團隊。
這是我經歷過的最困難、最緊張又令人興奮的事情之一。如今,安全系統團隊擁有超過80位出色的科學家、工程師、專案經理、政策專家,我為我們作為一個團隊所取得的一切成就感到極為自豪。
我們見證了每次釋出的核心——從GPT-4及其視覺和Turbo版本,到GPT Store、語音功能以及01版本。我們在訓練這些模型以達到負責任和有益的目標上設立了新的行業標準。
我特別為我們最新的成就o1預覽版感到自豪,它是我們迄今為止最安全的模型,展現了出色的抗破解能力,同時保持了模型的有用性。
我們的集體成就令人矚目:
我們訓練模型如何處理敏感或不安全的請求,包括何時拒絕或不拒絕,並透過遵循一套明確的模型安全行為政策,達成安全與實用之間的良好平衡。我們在每次模型釋出中提升了對抗性魯棒性,包括針對破解的防禦、指令層次結構,並透過推理大幅增強了魯棒性。我們設計了嚴格且富有創意的測試方法,使模型與《準備框架》保持一致,併為每個前沿模型進行了全面的安全測試和紅隊測試。我們在詳細的模型系統卡中強化了對透明性的承諾。我們開發了業內領先的稽核模型,具有多模式能力,並免費向公眾共享。我們當前在一個更通用的監控框架和增強安全推理能力的方向上工作,將賦能更多的安全工作流。我們為安全資料日誌、度量、儀表盤、主動學習管道、分類器部署、推理時間過濾以及一種新的快速響應系統奠定了工程基礎。
回顧我們所取得的成就,我為安全系統團隊的每一個人感到無比自豪,並極為確信這個團隊將繼續蓬勃發展。我愛你們。
在OpenAI的七年之後,我準備好重新出發,探索一些新的領域。OpenAI正沿著火箭般的軌跡前進,我衷心祝願這裡的每一個人一切順利。
附註:我的部落格將繼續更新。我或許會有更多時間來更新它 & 可能也會有更多時間編寫程式碼 。
愛你們的,Lilian
鐵打的OpenAI,流水的安全主管
自OpenAI成立以來,安全主管這個關鍵職位歷經多次更替。
最早在2016年,OpenAI的安全主管由達里奧·阿莫代伊(Dario Amodei)擔任,在他的領導下,安全系統團隊專注於減少現有模型和產品的濫用風險,尤其是圍繞GPT-3的安全性開展了深入研究。
阿莫代伊主導了GPT-3的全面安全評估,以確保模型在釋出前經過嚴格的安全測試和評估,最大限度地降低潛在的濫用風險。
他在OpenAI的工作為後來人工智慧的安全治理奠定了重要基礎。
2021年,阿莫代伊離開OpenAI創立了Anthropic公司,繼續致力於人工智慧的安全研究,推動構建更具可信度和安全性的AI模型。
在阿莫代伊之後,還有短暫任職2個月的安全主管,亞歷山大·馬德里(Aleksander Madry)。
他在職期間主要聚焦對新模型的能力進行評估,並開展內部紅隊測試,以識別和緩解潛在的安全風險。
雖然他的任期較短,但他在紅隊測試和威脅預測上的重要推進,為OpenAI的安全實踐提供了新的視角和方法論。
在2023年7月後,馬德里轉而專注於“AI推理”方面的工作,離開了安全主管的職位。
在他之後的第三位安全主管,則是楊·萊克(Jan Leike),在2023年7月至2024年5月擔任這一職務,和Ilya一起領導“超級對齊”專案,目標是在四年內解決超智慧AI的對齊問題。
在此期間,楊·萊克推動了使用小型模型監督和評估大型模型的研究,開創了對超人類能力模型進行實證對齊的新方法。
這種方法對於理解和應對高階人工智慧模型的行為具有深遠影響。
然而,由於與公司在安全和產品優先順序上的分歧,楊·萊克於2024年5月宣佈離職。
儘管如此,他在對齊研究方面的貢獻,為後續人工智慧的可控性研究奠定了理論和實踐基礎。
而翁荔則是於2024年7月擔任OpenAI安全主管。
關於翁荔
翁荔是OpenAI華人科學家、ChatGPT的貢獻者之一,本科畢業於北大,在印第安納大學伯明頓分校攻讀博士。
畢業之後的翁荔先是短暫的在Facebook實習了一段時間,第一份工作則是就職於Dropbox,擔任軟體工程師。
她於2018年加入OpenAI,在GPT-4專案中主要參與預訓練、強化學習和對齊、模型安全等方面的工作。
在OpenAI去年底成立的安全顧問團隊中,翁荔領導安全系統團隊(Safety Systems),解決減少現有模型如ChatGPT濫用等問題。
翁荔在Google Scholar的引用量也達到了13000+次。
此前她提出的提出LLM外在幻覺(extrinsic hallucination)的博文也是非常火爆。
翁荔重點關注外在幻覺,討論了三個問題:產生幻覺的原因是什麼?幻覺檢測,抵抗幻覺的方法。
關於研究的細節,可以點選這裡檢視:萬字blog詳解抵抗辦法、產幻原因和檢測方式。
至於翁荔離職後的去向,量子位也會保持持續的關注。
參考連結:[1]https://x.com/lilianweng/status/1855031273690984623[2]https://www.linkedin.com/in/lilianweng/