有望減少所需計算資源，科學家提出新方法對齊大模型

眾所周知，ChatGPT、Pathways、Llama 等大模型經過大量資料集的訓練，已在多種任務中展現出令人印象深刻的能力。

這些模型不僅在領域（如文字生成、翻譯和問答系統）表現出色，而且在醫療診斷、法律諮詢和科學研究等更復雜的領域也顯示出巨大的潛力。

然而，儘管這些模型的表現令人矚目，它們仍然面臨顯著的風險。

這是由於這些訓練資料的異質性，大模型可能會無意中生成誤導性資訊和有害內容。

具體而言，這些模型的訓練資料通常來源於網際網路，由於質量和來源參差不齊，其極有可能帶來不準確、偏頗甚至有害的資訊。

因此，在生成內容時，模型可能由於混入上述提及的不可靠的資訊，從而導致錯誤和風險。

例如，當模型被用於生成社交媒體上的內容時，如果生成的文字包含煽動性言論、虛假資訊或對某些群體的歧視性描述，可能會引發社會爭議甚至引發暴力行為。

此外，這些模型在生成內容時也許會放大現有的偏見和歧視，從而進一步加劇社會不公。

譬如，在招聘或信貸評估過程中，如果模型的訓練資料中包含性別或種族偏見，極有可能會導致不公平的決策，這將嚴重影響社會的公平、公正與和諧。

上述的問題突顯了將大模型與人類需求對齊的關鍵挑戰。對齊不僅意味著要求大模型能夠生成準確可靠的資訊，還要求它們所生成的內容符合社會道德和倫理標準，從而避免造成潛在危害。

這需要人們在設計和訓練這些模型時，不僅關注其效能，還要高度重視模型的安全性和倫理性，以確保它們在各類應用場景中能夠真正服務於人類的福祉。

總之，儘管大模型在許多工中展現了強大的能力，但其潛在的誤導性和有害性提醒我們，在追求技術進步的同時，必須慎重考慮如何將這些模型與人類需求和價值觀緊密對齊。

所以，將大模型與人類需求以及社會價值觀對齊是當前人工智慧研究和應用中面臨的一個重大而緊迫的挑戰。

在最近的一項研究中，美國佐治亞理工學院課題組提出透過表徵編輯來對齊大模型（LLM，Large Language Model）。他們透過將外部控制訊號引入這個語言動力系統的狀態空間，從而實現特定目標的對齊。

日前，相關論文以《透過表徵編輯對齊大模型：一種控制視角》（Aligning Large Language Models with Representation Editing: A Control Perspective）為題發在預印本網站arXiv[1]。

並且，該論文近期已被人工智慧頂會神經資訊處理系統大會（NeurIPS，Conference on Neural Information Processing Systems）2024 接收。

佐治亞理工學院孔令愷博士（現美國哈佛大學博士後），博士生 WangHaorui 和碩士生 Mu Wenhao 是共同第一作者兼共同通訊作者。

目前，大模型對齊方法通常分為兩類：微調和測試時對齊。在微調方法中，基於人類反饋的強化學習（RLHF，Reinforcement Learning from Human Feedback）尤其有效。

RLHF 透過訓練一個獎勵模型（RM, Reward Model），依據人類偏好進行最佳化，然後利用該模型透過強化學習技術對大模型進行微調。

然而，RL 訓練可能存在困難和不穩定性。儘管最近的一些研究提出了比 RLHF 更簡單的替代方法，這些方法仍需大量計算資源。

此外，適應對齊目標的微調需求使得快速定製模型，以應對不斷變化的資料集和新需求變得困難。

另一方面，還有一些在測試階段對齊大模型的方法，這些方法無需改變其權重，例如提示工程和引導解碼。

然而，由於這些方法不修改底層的 LLM，其對齊能力仍然存在疑問，效能可能在很大程度上依賴於原始 LLM 的質量。

鑑於上述存在的這些困難和問題，該課題組採用了一種新方法，透過編輯模型的表徵來對齊 LLM。

這種表徵空間編輯方法的優勢在於無需更新模型權重，而是透過對模型表徵進行小幅擾動來引導其行為。

而且，現有研究已經展示了這種方法在提升 LLM 真實性和減少幻覺方面的巨大潛力。

然而，以往的工作通常依賴於在生成過程中向表徵空間新增固定擾動，忽視了 LLM 的自迴歸生成特性。

出於對問題的本源探索以及對探究解決方法，該課題組參考了兩篇論文，分別是：

發表於 NeurIPS 2023 的論文《推理時間干預：從語言模型中獲取真實答案》（Inference-Time Intervention: Eliciting Truthful Answers from a Language Model）[2]。

另一篇是論文是該團隊在 2020 國際機器學習會議（ ICML，International Conference on Machine Learning）發表的論文《SDE-Net：為深度神經網路提供不確定性估計》（SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates）[3]。

從解決問題的角度出發，根據上述已發表的論文，該課題組提出了一種從控制理論角度出發的動態表徵編輯方法。

該團隊的模型設計核心在於將大模型視為一個離散時間的隨機動力系統。受控制理論技術的啟發，他們向語言動力系統的狀態空間引入控制訊號，以實現特定的對齊目標。

然後，根據貝爾曼方程，在 LLM 的表徵空間中直接訓練一個價值函式。在測試階段，研究團隊採用基於梯度的最佳化方法來確定控制訊號。

由於價值函式僅為一個兩層或三層的神經網路，因此干預過程非常快速且高效。

為了在實現對齊目標的同時保留原始 LLM 的生成質量，研究人員對控制訊號進行正則化，使其儘可能小。

透過這種方式，他們既達成了對齊的目標，又不影響模型的生成質量。

在實驗中，該團隊將方法與現有的測試階段對齊技術進行了比較。對比結果發現，這種方法能夠顯著提升模型的對齊能力。

除此之外，他們還與現有的基於微調的方法進行了對比。實驗證明，該方案在取得具有競爭力的結果的同時，還大幅減少了所需的計算資源。

當前，大模型的應用日益廣泛，正在不斷改變我們的生活。該課題組提出的透過動態編輯大模型表徵實現對齊的方法，具有許多前景廣闊的應用。

比如，可以應用於公共安全與應急響應。在公共安全領域，提高模型在應急響應中的魯棒性和安全性，確保生成的資訊準確無誤，幫助應急響應團隊做出及時、正確的決策，保護公眾安全。

此外，還可以應用於社會科學研究。在社會科學研究中，確保使用大模型生成的資料和分析結果真實可靠，減少誤導性資訊對研究結論的影響，支援科學研究的高質量發展。

不難想象，動態表徵編輯方法可以在多個領域發揮其巨大潛力，幫助解決實際問題，提高大模型的可靠性和安全性，有望推動技術進步革新和社會發展。

值得關注的是，這項研究是透過編輯模型表徵來進行大模型對齊的首例嘗試。

接下來，該團隊還將對該編輯模型表徵做進一步提升。具體來說：

第一，向控制策略中注入歸納偏差：在該課題組目前的工作中，僅在模型隱藏空間的最後一層訓練一個價值函式。

然而，他們可以採用更復雜的方法，首先在所有中間隱藏層上訓練多個價值函式，然後選擇在驗證集上達到最佳準確度的層。

此外，研究人員還可以借鑑已有研究中的方法，僅對錶示空間的低秩子空間進行擾動。

第二，多目標對齊：研究團隊本次的研究考慮的是單一獎勵模型的目標。然而，在實際應用中，對齊可能涉及多個潛在衝突的目標。

在這種情況下，利用多目標最佳化技術在測試時獲得表示空間中的帕累託前沿將是一個有趣的研究方向。

第三，更先進的訓練演算法：目前，該課題組僅使用一種簡單的單次迭代策略來訓練價值函式。他們計劃進一步研究增加迭代次數是否能改進價值函式的訓練。

此外，研究團隊還考慮使用能夠提供可證明收斂性的演算法來訓練價值函式。

據介紹，這篇論文是孔令愷在博士期間的最後一個研究課題。目前，他在哈佛參與的一個專案與非洲的野生動物保護區合作，旨在利用人工智慧中熱門的生成模型技術推動野生動物保護。

未來，他將專注於將人工智慧應用於環保和公共安全等新領域，致力於提升人工智慧的魯棒性和安全性，幫助非營利組織做出更好的決策。

參考資料：

1. Kong, L., Wang, H., Mu, W., Du, Y., Zhuang, Y., Zhou, Y., ... & Zhang, C. Aligning Large Language Models with Representation Editing: A Control Perspective.arXiv2406, 05954 (2024). https://doi.org/10.48550/arXiv.2406.05954

2. Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M.. Inference-time intervention: Eliciting truthful answers from a language model.Advances in Neural Information Processing Systems, 36 (2024).

3.Kong, L., Sun, J. and Zhang, C., 2020, November. SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates. In International Conference on Machine Learning (pp. 5405-5415). PMLR.

運營/排版：何晨龍