時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識別”

2024-12-14 07:45:26

上海AI Lab邵婧課題組 投稿量子位 | 公眾號 QbitAI

大模型“套殼”事件防不勝防,有沒有方法可以檢測套殼行為呢?

來自上海AI實驗室、中科院、人大和上交大的學者們,提出了一種大模型的“”方法——REEF(Representation Encoding Fingerprints)。

在不改變模型效能的前提下,利用REEF就可以精準識別未經授權的後續開發行為。

REEF依賴模型在微調後表徵“不變性”的特點,基於表徵編碼實現對大模型的“指紋鑑別”。

並且即使經過剪枝、合併、引數排列和縮放變換等一系列操作,同樣能讓“套殼”行為無所遁形。

可以說,這項研究給大模型開發團隊提供了一種應對大模型侵權問題的新手段。

大模型表徵具有“微調不變性”

注:在下文中,“源模型”是指從頭訓練的LLM(即論文中victim model),如Llama、Qwen等;“被測模型”(即論文中的suspect model),分為兩類——基於源模型開發/訓練的“衍生模型”和其他“無關模型”。REEF的目標是,給定一個被測模型,檢測其是否是來自“源模型”的“衍生模型”,即所謂的“套殼”模型。

鑑於訓練大語言模型的投入巨大,模型所有者和第三方迫切需要一種準確高效的方法,以判斷被測模型是否來自某一源模型(例如Code-llama從Llama-2訓練而來)。

然而,現有的水印方法不僅增加了額外的訓練成本,還可能削弱模型的通用效能,且水印容易被刪除。更重要的是,這些方法無法應用於已公開發布的模型。

此外,基於權重的指紋識別缺乏魯棒性,惡意開發者可以透過不同權重修改手段輕鬆繞過檢測。

由於不同模型在訓練資料和模型架構上的差異,不同的LLM的特徵表示有所不同。

如下圖(a)所示,Llama的表徵與Baichuan和Qwen明顯不同,但與其微調模型(如Llama-chat和Chinese-llama)更為接近。

這一現象揭示了表徵作為LLM“指紋”的潛力。

基於以下兩點觀察,作者在源模型的表徵上訓練了一個二元分類器,並將其應用於各種被測模型的表徵,包括衍生模型和無關模型:

微調後的衍生模型的表徵與源模型的表徵相似,而無關模型的表徵顯示出不同的分佈;一些高階語義概念在 LLM 的表徵空間中“線性”編碼,從而可以輕鬆分類,如安全或不安全、誠實或不誠實等。

具體而言,作者使用TruthfulQA資料集,分別選擇 Llama-2-7B和 Llama-2-13B作為源模型,並在其資料集表徵上訓練了多種深度神經網路DNN分類器,例如線性分類器、多層感知器MLP、CNN 和圖卷積網路GCN。

然後,作者將訓練好的DNN分類器應用於被測模型的表徵。

實驗結果表明:在源模型的表徵上訓練的分類器能夠有效遷移到其衍生模型的表徵上,但在無關模型的表徵上失效。

這意味著,表徵可以作為指紋來保護源模型的智慧財產權。

然而,使用DNN分類器識別源模型面臨以下挑戰:

DNN具有固定的輸入維度,如果對源模型進行改變表徵維度的剪枝操作,分類器不再適用;DNN對錶徵的排列缺乏魯棒性,惡意開發人員可能透過變換矩陣實現引數重排來規避檢測。

REEF:一種魯棒的LLM指紋識別方法

為了解決上述挑戰,作者提出一種新的基於表徵的指紋識別方法——REEF,具備良好的魯棒性。

REEF利用中心核對齊CKA相似性,重點關注LLM的內部特徵表徵。

在評估被測模型是否來自源模型時,REEF計算兩個模型對相同樣本的表徵之間的CKA相似性。

該方法簡單高效,能夠確保捕獲到任何顯著的相似性,從而揭示模型之間的潛在衍生關係。

CKA是基於希爾伯特-施密特獨立性準則(HilbertSchmidt Independence Criterion,HSIC)的相似性指數,用於測量兩組隨機變數之間的獨立性。

X和Y之間的CKA相似度可以按如下方式計算:

透過下面的定理1,論文在理論上證明了CKA相似度在任何列排列和縮放變換下具有不變性。同時,CKA能夠在不同維度的表徵之間建立對應關係。

因此,REEF 對源模型的各種後續開發(包括模型剪枝和表徵排列)表現出強魯棒性,從而確保基於表徵的指紋能夠準確識別源模型。

無懼後續開發,穩穩識別“套殼”模型

作者將REEF應用於透過微調、剪枝、合併、排列和縮放變換等方式從源模型衍生出的被測模型。

這些方式可能顯著改變模型的結構或引數,使得現有方法難以有效識別源模型。

然而,REEF在這些情況下依然能夠準確識別出源模型,進一步驗證了其魯棒性。

具體來說,從上面的表中,可以得出以下結論:

REEF對微調具有很強的魯棒性,即使在使用多達700B tokens的微調情況下(Llama-7B),REEF仍能達到0.9962的高相似度;REEF對各種剪枝策略都表現出魯棒性,無論結構化剪枝還是非結構化剪枝,REEF都能夠有效識別源模型,即使剪枝比率高達90%,REEF依然能夠成功識別;無論是基於權重或基於分佈的模型合併方法,REEF均能在識別合併模型的來源方面始終保持高準確性;REEF 對任何列排列和縮放變換具有不變性,能夠抵禦該類規避技術。

魯棒且高效:跨資料集和樣本量

作者進一步分析了REEF在不同資料集和不同樣本數量下的表現。

一方面,除了前文提到的TruthfulQA資料集,作者還選擇了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等資料集進行實驗;

另一方面,對於每個資料集,別在樣本數量從10到1000、每隔10的情況下進行取樣,以測試REEF的表現。

結果,REEF在不同資料集上均表現出有效性,對資料集不具強依賴性(圖示在不同資料集上,源模型與衍生模型之間的相似性顯著高於其與無關模型之間的相似性,表明REEF能夠跨資料集穩定識別源模型);

同時,REEF依賴少量樣本即可穩健識別模型指紋,具有高效性(圖示REEF在 200-300 個樣本後結果趨於穩定,表明其可以在較少的樣本數量下實現可靠的指紋識別)。

REEF它不僅保障了模型效能,還平衡了開放性與智慧財產權之間的關係,能夠確保衍生模型的責任可追溯。

作者相信,REEF將為AI模型保護和智慧財產權管理設立新的標準,促進更透明、協作的AI社群。

作者簡介

本文由上海AI Lab、中科院、人大和上交大聯合完成。

主要作者包括中科院博士生張傑、上海AI Lab青年研究員劉東瑞(共同一作)等。

通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。

論文地址:https://arxiv.org/abs/2410.14273專案主頁:https://github.com/tmylla/REEF

熱門資訊
  • 光晶片迎來“視窗期”:AI拉動光模組發展,國產化率亟待提高 | 2024-11-15 17:43:53
  • 華碩 ROG 雷神 3 代白金電源上架:1000W 2699 元、1200W 3499 元 | 2024-11-15 17:54:10
  • 馬斯克實現“筷子夾火箭”意味著什麼?長征六號運載火箭前副總師這樣說 | 2024-11-15 18:06:58
  • 肖克利的幽靈重現矽谷 | 2024-11-15 18:13:07
  • 額外 50% 視訊記憶體,技嘉推出 Radeon PRO W7800 AI TOP 48G 專業顯示卡 | 2024-11-15 18:17:39
  • 優派推出新款27寸顯示器:4K 160Hz屏僅1499元 | 2024-11-15 18:17:41
  • AMD大秀銳龍AI 9 HX 370:遊戲效能平均領先酷睿Ultra 7 258V 75% | 2024-11-15 18:17:45
  • 中國航發:未來 20 年我國商用航空發動機預計交付 1.9 萬臺 | 2024-11-15 18:19:32
  • 臺積電停供大陸晶片!比斷供還可怕的是,美晶片專家很多是華人 | 2024-11-15 18:25:30
  • 十銓推出外接桌面固態硬碟 T-CREATE EXPERT P32,最大容量 16TB | 2024-11-15 18:39:55
  • 中山大學宋爾衛院士團隊再取突破 | 2024-11-15 18:49:59
  • 祝賀!武漢大學最新Science | 2024-11-15 18:53:41
  • Wi-Fi 8提升重點將從速度轉向穩定性,預計2028年接管Wi-Fi 7 | 2024-11-15 19:23:49
  • 千億珠海航展“賣場”,把這些航空科技賣成了現金 | 2024-11-15 19:37:17
  • 銳龍7 9800X3D首次燒燬:微星官方回應正在調查 | 2024-11-15 19:45:37
  • WiFi 7還沒用上,WiFi 8就要來了! | 2024-11-15 19:47:15
  • 這個男人,開啟了晶片全球化,拯救了美國半導體 | 2024-11-15 19:55:34
  • 羅德 Wireless Micro 口袋無線領夾麥克風上架,995 元 | 2024-11-15 20:00:19
  • 他甚至“成功挑戰”了自己的導師理查德·費曼… | 2024-11-15 20:05:13
  • 2699元起 ROG THOR雷神III 1200/1000W電源上架:引入GaN氮化鎵 | 2024-11-15 20:21:48
  • AMD新一代銳龍8000G加持!聯想啟天M550桌上型電腦圖賞 | 2024-11-15 20:21:52
  • 亞馬遜推出 Fire TV Soundbar Plus 音箱:3.1 聲道、135W 總功率 | 2024-11-15 20:33:32
  • 《細胞·代謝》:反式脂肪太毒了!科學家發現新的反式脂肪促進動脈粥樣硬化機制,膽固醇不是唯一的“壞蛋” | 2024-11-15 20:38:38
  • 國際空間站怪事!波音宇航員肉眼可見速度衰老:究竟發生了什麼? | 2024-11-15 20:41:57
  • RTX 50全系升級12V-2x6供電介面!最高功率450W | 2024-11-15 20:44:10
  • 國家獎勵800萬!美西方航空發動機絕密技術,被初中學歷小夥攻克 | 2024-11-15 21:31:01
  • 忒牛了!我國首臺準環對稱仿星器測試平臺取得重大階段性成果! | 2024-11-15 22:24:05
  • 飯圈終於對科技圈下手了 | 2024-11-15 22:45:27
  • 光啟技術:將在明年開始小批次交付全機身超材料無人機 | 2024-11-15 22:45:42
  • 哈工大兩篇成果:多孔銀薄膜的等離子體氧化-還原法制備及其SERS特性研究 | 2024-11-15 23:23:56
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們