時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

有望減少所需計算資源,科學家提出新方法對齊大模型

2024-11-09 21:19:46

眾所周知,ChatGPT、Pathways、Llama 等大模型經過大量資料集的訓練,已在多種任務中展現出令人印象深刻的能力。

這些模型不僅在領域(如文字生成、翻譯和問答系統)表現出色,而且在醫療診斷、法律諮詢和科學研究等更復雜的領域也顯示出巨大的潛力。

然而,儘管這些模型的表現令人矚目,它們仍然面臨顯著的風險。

這是由於這些訓練資料的異質性,大模型可能會無意中生成誤導性資訊和有害內容。

具體而言,這些模型的訓練資料通常來源於網際網路,由於質量和來源參差不齊,其極有可能帶來不準確、偏頗甚至有害的資訊。

因此,在生成內容時,模型可能由於混入上述提及的不可靠的資訊,從而導致錯誤和風險。

例如,當模型被用於生成社交媒體上的內容時,如果生成的文字包含煽動性言論、虛假資訊或對某些群體的歧視性描述,可能會引發社會爭議甚至引發暴力行為。

此外,這些模型在生成內容時也許會放大現有的偏見和歧視,從而進一步加劇社會不公。

譬如,在招聘或信貸評估過程中,如果模型的訓練資料中包含性別或種族偏見,極有可能會導致不公平的決策,這將嚴重影響社會的公平、公正與和諧。

上述的問題突顯了將大模型與人類需求對齊的關鍵挑戰。對齊不僅意味著要求大模型能夠生成準確可靠的資訊,還要求它們所生成的內容符合社會道德和倫理標準,從而避免造成潛在危害。

這需要人們在設計和訓練這些模型時,不僅關注其效能,還要高度重視模型的安全性和倫理性,以確保它們在各類應用場景中能夠真正服務於人類的福祉。

總之,儘管大模型在許多工中展現了強大的能力,但其潛在的誤導性和有害性提醒我們,在追求技術進步的同時,必須慎重考慮如何將這些模型與人類需求和價值觀緊密對齊。

所以,將大模型與人類需求以及社會價值觀對齊是當前人工智慧研究和應用中面臨的一個重大而緊迫的挑戰。

在最近的一項研究中,美國佐治亞理工學院課題組提出透過表徵編輯來對齊大模型(LLM,Large Language Model)。他們透過將外部控制訊號引入這個語言動力系統的狀態空間,從而實現特定目標的對齊。

日前,相關論文以《透過表徵編輯對齊大模型:一種控制視角》(Aligning Large Language Models with Representation Editing: A Control Perspective)為題發在預印本網站arXiv[1]。

並且,該論文近期已被人工智慧頂會神經資訊處理系統大會(NeurIPS,Conference on Neural Information Processing Systems)2024 接收。

佐治亞理工學院孔令愷博士(現美國哈佛大學博士後),博士生 WangHaorui 和碩士生 Mu Wenhao 是共同第一作者兼共同通訊作者。

目前,大模型對齊方法通常分為兩類:微調和測試時對齊。在微調方法中,基於人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)尤其有效。

RLHF 透過訓練一個獎勵模型(RM, Reward Model),依據人類偏好進行最佳化,然後利用該模型透過強化學習技術對大模型進行微調。

然而,RL 訓練可能存在困難和不穩定性。儘管最近的一些研究提出了比 RLHF 更簡單的替代方法,這些方法仍需大量計算資源。

此外,適應對齊目標的微調需求使得快速定製模型,以應對不斷變化的資料集和新需求變得困難。

另一方面,還有一些在測試階段對齊大模型的方法,這些方法無需改變其權重,例如提示工程和引導解碼。

然而,由於這些方法不修改底層的 LLM,其對齊能力仍然存在疑問,效能可能在很大程度上依賴於原始 LLM 的質量。

鑑於上述存在的這些困難和問題,該課題組採用了一種新方法,透過編輯模型的表徵來對齊 LLM。

這種表徵空間編輯方法的優勢在於無需更新模型權重,而是透過對模型表徵進行小幅擾動來引導其行為。

而且,現有研究已經展示了這種方法在提升 LLM 真實性和減少幻覺方面的巨大潛力。

然而,以往的工作通常依賴於在生成過程中向表徵空間新增固定擾動,忽視了 LLM 的自迴歸生成特性。

出於對問題的本源探索以及對探究解決方法,該課題組參考了兩篇論文,分別是:

發表於 NeurIPS 2023 的論文《推理時間干預:從語言模型中獲取真實答案》(Inference-Time Intervention: Eliciting Truthful Answers from a Language Model)[2]。

另一篇是論文是該團隊在 2020 國際機器學習會議( ICML,International Conference on Machine Learning)發表的論文《SDE-Net:為深度神經網路提供不確定性估計》(SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates)[3]。

從解決問題的角度出發,根據上述已發表的論文,該課題組提出了一種從控制理論角度出發的動態表徵編輯方法。

該團隊的模型設計核心在於將大模型視為一個離散時間的隨機動力系統。受控制理論技術的啟發,他們向語言動力系統的狀態空間引入控制訊號,以實現特定的對齊目標。

然後,根據貝爾曼方程,在 LLM 的表徵空間中直接訓練一個價值函式。在測試階段,研究團隊採用基於梯度的最佳化方法來確定控制訊號。

由於價值函式僅為一個兩層或三層的神經網路,因此干預過程非常快速且高效。

為了在實現對齊目標的同時保留原始 LLM 的生成質量,研究人員對控制訊號進行正則化,使其儘可能小。

透過這種方式,他們既達成了對齊的目標,又不影響模型的生成質量。

在實驗中,該團隊將方法與現有的測試階段對齊技術進行了比較。對比結果發現,這種方法能夠顯著提升模型的對齊能力。

除此之外,他們還與現有的基於微調的方法進行了對比。實驗證明,該方案在取得具有競爭力的結果的同時,還大幅減少了所需的計算資源。

當前,大模型的應用日益廣泛,正在不斷改變我們的生活。該課題組提出的透過動態編輯大模型表徵實現對齊的方法,具有許多前景廣闊的應用。

比如,可以應用於公共安全與應急響應。在公共安全領域,提高模型在應急響應中的魯棒性和安全性,確保生成的資訊準確無誤,幫助應急響應團隊做出及時、正確的決策,保護公眾安全。

此外,還可以應用於社會科學研究。在社會科學研究中,確保使用大模型生成的資料和分析結果真實可靠,減少誤導性資訊對研究結論的影響,支援科學研究的高質量發展。

不難想象,動態表徵編輯方法可以在多個領域發揮其巨大潛力,幫助解決實際問題,提高大模型的可靠性和安全性,有望推動技術進步革新和社會發展。

值得關注的是,這項研究是透過編輯模型表徵來進行大模型對齊的首例嘗試。

接下來,該團隊還將對該編輯模型表徵做進一步提升。具體來說:

第一,向控制策略中注入歸納偏差:在該課題組目前的工作中,僅在模型隱藏空間的最後一層訓練一個價值函式。

然而,他們可以採用更復雜的方法,首先在所有中間隱藏層上訓練多個價值函式,然後選擇在驗證集上達到最佳準確度的層。

此外,研究人員還可以借鑑已有研究中的方法,僅對錶示空間的低秩子空間進行擾動。

第二,多目標對齊:研究團隊本次的研究考慮的是單一獎勵模型的目標。然而,在實際應用中,對齊可能涉及多個潛在衝突的目標。

在這種情況下,利用多目標最佳化技術在測試時獲得表示空間中的帕累託前沿將是一個有趣的研究方向。

第三,更先進的訓練演算法:目前,該課題組僅使用一種簡單的單次迭代策略來訓練價值函式。他們計劃進一步研究增加迭代次數是否能改進價值函式的訓練。

此外,研究團隊還考慮使用能夠提供可證明收斂性的演算法來訓練價值函式。

據介紹,這篇論文是孔令愷在博士期間的最後一個研究課題。目前,他在哈佛參與的一個專案與非洲的野生動物保護區合作,旨在利用人工智慧中熱門的生成模型技術推動野生動物保護。

未來,他將專注於將人工智慧應用於環保和公共安全等新領域,致力於提升人工智慧的魯棒性和安全性,幫助非營利組織做出更好的決策。

參考資料:

1. Kong, L., Wang, H., Mu, W., Du, Y., Zhuang, Y., Zhou, Y., ... & Zhang, C. Aligning Large Language Models with Representation Editing: A Control Perspective.arXiv2406, 05954 (2024). https://doi.org/10.48550/arXiv.2406.05954

2. Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M.. Inference-time intervention: Eliciting truthful answers from a language model.Advances in Neural Information Processing Systems, 36 (2024).

3.Kong, L., Sun, J. and Zhang, C., 2020, November. SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates. In International Conference on Machine Learning (pp. 5405-5415). PMLR.

運營/排版:何晨龍

熱門資訊
  • 未來一週 華為多個新品蓄勢待發 事關5.5G、儲存、摺疊機…… | 2024-02-19 19:47:42
  • 三星 Galaxy Fit3 健身手環宣傳物料曝光:滿電續航 13 天 | 2024-02-19 19:48:44
  • 榮耀預告新款 MagicBook Pro 16 筆記本,將於 MWC 2024 釋出 | 2024-02-19 19:59:30
  • 小米14 Ultra拍攝樣張公佈,全焦段大光圈鏡頭,但超廣角或無升級 | 2024-02-19 20:01:17
  • 從300萬年前到今天,智人究竟發生了什麼,才得以統治地球? | 2024-02-19 20:01:20
  • 【新機】努比亞也出小摺疊,搭載火龍處理器 | 2024-02-19 20:01:23
  • Anker、倍思、閃極等品牌推出15款適用Vision Pro的大容量充電寶 | 2024-02-19 20:01:27
  • 小米原創!小米14 Ultra搭載全新浮動長焦:行業最強 | 2024-02-19 20:02:10
  • 麒麟供應問題解決!華為Mate 60系列渠道開始降價:最高優惠1千 | 2024-02-19 20:02:16
  • 徠卡影像機皇秀肌肉!小米14 Ultra官方樣張出爐:真實有層次 | 2024-02-19 20:10:35
  • AI時代音響入門首選——英國Innuos音若思ZENmini MK3串流音樂伺服器 | 2024-02-19 20:10:44
  • 【新品首發開箱】華碩a豆14 Air:女性AI超輕薄本,多彩高顏值! | 2024-02-19 20:21:11
  • 華碩 a 豆 14 2024 款筆記本釋出:i5-1335U、1080P,3999 元 | 2024-02-19 20:32:33
  • 七彩虹 COLORFIRE 首款筆記本來了,MEOW R15 遊戲本 23 日釋出 | 2024-02-19 20:43:13
  • 華碩 a 豆 14 Air 筆記本釋出:8845H+120Hz 2.8K OLED,5499 元 | 2024-02-19 20:43:17
  • iPhone 16 Pro最新渲染圖出爐:五年來首次啟用全新後攝造型! | 2024-02-19 21:12:43
  • 小米14 Ultra繼續預熱,影像配置資訊進一步揭曉 | 2024-02-19 21:16:50
  • 碳基生命或許只是特例,在真實的宇宙中,矽基生命更有優勢 | 2024-02-19 21:17:04
  • 小米 14 Ultra 外觀公佈,將於 2 月 22 日釋出 | 2024-02-19 21:18:25
  • 訊息稱 iQOO 新機搭載驍龍 8s Gen 3 處理器,預計 6000mAh 電池 | 2024-02-19 21:18:29
  • 傳三星XR頭顯開發團隊規模已擴大至100人左右 | 2024-02-19 21:18:32
  • 疑似榮耀Magic6 RSR保時捷設計入網,或即將亮相 | 2024-02-19 21:20:51
  • 新突破!又找到一個頁岩氣“甜點”區 | 2024-02-19 21:20:54
  • 卷死同行!紅米Redmi G Pro27電競顯示器預售,1999元旗艦級規格 | 2024-02-19 21:23:07
  • 小米開年一大批新機,開始陸續浮出水面 | 2024-02-19 21:30:34
  • 最新進展,新一代通訊衛星要來?產業龍頭股透露產銷趨勢,機構看好行業今年的發展機遇 | 2024-02-19 21:49:50
  • AMD Zen 5 CPU將於第二季度採用臺積電3nm工藝製造 並於第三季度量產 | 2024-02-19 21:50:46
  • 倫敦一戶人家在日常家庭清潔中發現兩臺世界上最早的臺式電腦 | 2024-02-19 21:50:51
  • Android 15第一版來了,但這次的更新值得玩味 | 2024-02-19 21:58:50
  • 什麼力量在保護地球?12000噸的小行星撞擊地球前,疑似被UFO擊毀 | 2024-02-19 21:59:04
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們