時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識別”

2024-12-14 07:45:26

上海AI Lab邵婧課題組 投稿量子位 | 公眾號 QbitAI

大模型“套殼”事件防不勝防,有沒有方法可以檢測套殼行為呢?

來自上海AI實驗室、中科院、人大和上交大的學者們,提出了一種大模型的“”方法——REEF(Representation Encoding Fingerprints)。

在不改變模型效能的前提下,利用REEF就可以精準識別未經授權的後續開發行為。

REEF依賴模型在微調後表徵“不變性”的特點,基於表徵編碼實現對大模型的“指紋鑑別”。

並且即使經過剪枝、合併、引數排列和縮放變換等一系列操作,同樣能讓“套殼”行為無所遁形。

可以說,這項研究給大模型開發團隊提供了一種應對大模型侵權問題的新手段。

大模型表徵具有“微調不變性”

注:在下文中,“源模型”是指從頭訓練的LLM(即論文中victim model),如Llama、Qwen等;“被測模型”(即論文中的suspect model),分為兩類——基於源模型開發/訓練的“衍生模型”和其他“無關模型”。REEF的目標是,給定一個被測模型,檢測其是否是來自“源模型”的“衍生模型”,即所謂的“套殼”模型。

鑑於訓練大語言模型的投入巨大,模型所有者和第三方迫切需要一種準確高效的方法,以判斷被測模型是否來自某一源模型(例如Code-llama從Llama-2訓練而來)。

然而,現有的水印方法不僅增加了額外的訓練成本,還可能削弱模型的通用效能,且水印容易被刪除。更重要的是,這些方法無法應用於已公開發布的模型。

此外,基於權重的指紋識別缺乏魯棒性,惡意開發者可以透過不同權重修改手段輕鬆繞過檢測。

由於不同模型在訓練資料和模型架構上的差異,不同的LLM的特徵表示有所不同。

如下圖(a)所示,Llama的表徵與Baichuan和Qwen明顯不同,但與其微調模型(如Llama-chat和Chinese-llama)更為接近。

這一現象揭示了表徵作為LLM“指紋”的潛力。

基於以下兩點觀察,作者在源模型的表徵上訓練了一個二元分類器,並將其應用於各種被測模型的表徵,包括衍生模型和無關模型:

微調後的衍生模型的表徵與源模型的表徵相似,而無關模型的表徵顯示出不同的分佈;一些高階語義概念在 LLM 的表徵空間中“線性”編碼,從而可以輕鬆分類,如安全或不安全、誠實或不誠實等。

具體而言,作者使用TruthfulQA資料集,分別選擇 Llama-2-7B和 Llama-2-13B作為源模型,並在其資料集表徵上訓練了多種深度神經網路DNN分類器,例如線性分類器、多層感知器MLP、CNN 和圖卷積網路GCN。

然後,作者將訓練好的DNN分類器應用於被測模型的表徵。

實驗結果表明:在源模型的表徵上訓練的分類器能夠有效遷移到其衍生模型的表徵上,但在無關模型的表徵上失效。

這意味著,表徵可以作為指紋來保護源模型的智慧財產權。

然而,使用DNN分類器識別源模型面臨以下挑戰:

DNN具有固定的輸入維度,如果對源模型進行改變表徵維度的剪枝操作,分類器不再適用;DNN對錶徵的排列缺乏魯棒性,惡意開發人員可能透過變換矩陣實現引數重排來規避檢測。

REEF:一種魯棒的LLM指紋識別方法

為了解決上述挑戰,作者提出一種新的基於表徵的指紋識別方法——REEF,具備良好的魯棒性。

REEF利用中心核對齊CKA相似性,重點關注LLM的內部特徵表徵。

在評估被測模型是否來自源模型時,REEF計算兩個模型對相同樣本的表徵之間的CKA相似性。

該方法簡單高效,能夠確保捕獲到任何顯著的相似性,從而揭示模型之間的潛在衍生關係。

CKA是基於希爾伯特-施密特獨立性準則(HilbertSchmidt Independence Criterion,HSIC)的相似性指數,用於測量兩組隨機變數之間的獨立性。

X和Y之間的CKA相似度可以按如下方式計算:

透過下面的定理1,論文在理論上證明了CKA相似度在任何列排列和縮放變換下具有不變性。同時,CKA能夠在不同維度的表徵之間建立對應關係。

因此,REEF 對源模型的各種後續開發(包括模型剪枝和表徵排列)表現出強魯棒性,從而確保基於表徵的指紋能夠準確識別源模型。

無懼後續開發,穩穩識別“套殼”模型

作者將REEF應用於透過微調、剪枝、合併、排列和縮放變換等方式從源模型衍生出的被測模型。

這些方式可能顯著改變模型的結構或引數,使得現有方法難以有效識別源模型。

然而,REEF在這些情況下依然能夠準確識別出源模型,進一步驗證了其魯棒性。

具體來說,從上面的表中,可以得出以下結論:

REEF對微調具有很強的魯棒性,即使在使用多達700B tokens的微調情況下(Llama-7B),REEF仍能達到0.9962的高相似度;REEF對各種剪枝策略都表現出魯棒性,無論結構化剪枝還是非結構化剪枝,REEF都能夠有效識別源模型,即使剪枝比率高達90%,REEF依然能夠成功識別;無論是基於權重或基於分佈的模型合併方法,REEF均能在識別合併模型的來源方面始終保持高準確性;REEF 對任何列排列和縮放變換具有不變性,能夠抵禦該類規避技術。

魯棒且高效:跨資料集和樣本量

作者進一步分析了REEF在不同資料集和不同樣本數量下的表現。

一方面,除了前文提到的TruthfulQA資料集,作者還選擇了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等資料集進行實驗;

另一方面,對於每個資料集,別在樣本數量從10到1000、每隔10的情況下進行取樣,以測試REEF的表現。

結果,REEF在不同資料集上均表現出有效性,對資料集不具強依賴性(圖示在不同資料集上,源模型與衍生模型之間的相似性顯著高於其與無關模型之間的相似性,表明REEF能夠跨資料集穩定識別源模型);

同時,REEF依賴少量樣本即可穩健識別模型指紋,具有高效性(圖示REEF在 200-300 個樣本後結果趨於穩定,表明其可以在較少的樣本數量下實現可靠的指紋識別)。

REEF它不僅保障了模型效能,還平衡了開放性與智慧財產權之間的關係,能夠確保衍生模型的責任可追溯。

作者相信,REEF將為AI模型保護和智慧財產權管理設立新的標準,促進更透明、協作的AI社群。

作者簡介

本文由上海AI Lab、中科院、人大和上交大聯合完成。

主要作者包括中科院博士生張傑、上海AI Lab青年研究員劉東瑞(共同一作)等。

通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。

論文地址:https://arxiv.org/abs/2410.14273專案主頁:https://github.com/tmylla/REEF

熱門資訊
  • Intel對美國太重要了!決不能倒下 | 2024-11-04 13:37:44
  • 鎧俠 XD20(EXCERIA PLUS G2)移動固態硬碟上市:2TB 款 919 元 | 2024-11-04 14:14:28
  • 新世代顯示器有多強?這才是真正意義上的滿血HDR | 2024-11-04 14:14:31
  • AI輕薄本銷量增長65% 京東11.11膝上型電腦引領消費新趨勢 | 2024-11-04 14:19:18
  • 雙十一最佳爆款機型?TCL T9 Pro 冰箱成品質保鮮新選擇 | 2024-11-04 14:28:23
  • AMD 推出 AR-9 98X 臺式主機:銳龍 7 9800X3D,7049 元 | 2024-11-04 14:34:30
  • 誰對?項立剛:中國需用戰爭證明自己!何祚庥院士:鼓吹戰爭誤國 | 2024-11-04 14:47:57
  • 英國專家警告,國際空間站的狀況已經很嚴重,可能帶來毀滅性後果 | 2024-11-04 14:48:00
  • 白色電競主機板新標杆,微星MPG Z890 EDGE TI WIFI刀鋒鈦主機板 | 2024-11-04 14:55:01
  • CXL 2.0加速到來,2024年底將成重要時點 | 2024-11-04 14:59:43
  • 谷歌員工打臉CEO 25%新程式碼AI生成誇大事實 | 2024-11-04 15:10:20
  • 餘承東:史上最強大的Mate,11月見!網友:還會倒退不成? | 2024-11-04 15:10:21
  • 11月4日外媒科學網站摘要:電針療法可能對控制肥胖有效 | 2024-11-04 15:10:23
  • 宇航員返回地球后去醫院 NASA要求SpaceX重視安全問題 | 2024-11-04 15:10:24
  • Temu考慮加入歐洲反假冒組織 | 2024-11-04 15:10:28
  • 1899元 金士頓NV3系列SSD新增4TB版:讀取速度高達6000MB/s | 2024-11-04 15:12:50
  • 蘋果計劃2025年推出M4 Ultra晶片:至高擁有32核CPU、80核GPU | 2024-11-04 15:21:49
  • 華碩 sTR5 主機板手冊提及 3D 快取,暗示下代大 L3 TR 處理器可能 | 2024-11-04 15:48:14
  • 項立剛怒罵說他身高矮的人!直接爆粗口,毫不留情! | 2024-11-04 15:56:04
  • 為什麼盒裝奶是950毫升,不是1000毫升?和這個男人有關…… | 2024-11-04 16:17:12
  • SK 海力士介紹全球首款 16-High HBM3E 記憶體,明年初出樣 | 2024-11-04 16:19:46
  • 首次在碳原子之間,觀測到近百年前預測的連線! | 2024-11-04 16:24:08
  • 揭秘我國首次申報諾貝爾化學獎始末 | 2024-11-04 16:25:29
  • 微軟 Win10 LTSC 增加多款英特爾 CPU 官方支援,2027 年結束更新 | 2024-11-04 16:30:52
  • 369元起 鎧俠EXCERIA PLUS G2系列行動硬碟上市:小巧鋁製外殼 | 2024-11-04 16:37:11
  • 美國政府考慮Intel設計部門與AMD合併!你覺得可能嗎 | 2024-11-04 16:51:13
  • 超級電容器,我叫你一聲“電池”,你敢答應嗎! | 2024-11-04 16:57:05
  • 發表第一篇論文十年後,接近一半的科學家離開了學術界? | 2024-11-04 16:57:11
  • 高通真是沒想到!聯合美國製裁華為5年:卻要被蘋果拋棄了 | 2024-11-04 17:00:43
  • 銘凡 UM870 Slim 迷你主機開售:R7-8745H 準系統售 1959 元 | 2024-11-04 17:01:16
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們