時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

深度揭秘CoT!普林斯頓耶魯釋出最新報告:大模型既有記憶推理、也有機率推理

2024-11-13 05:42:41

新智元報道

編輯:LRS

【新智元導讀】研究人員透過案例研究,利用大型語言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思維鏈(CoT)提示在解碼移位密碼任務中的表現;CoT提示雖然提升了模型的推理能力,但這種能力並非純粹的符號推理,而是結合了記憶和機率推理的複雜過程。

「推理」是非常能展現「人類智慧」的一項能力,需要結合現有證據和過去的經驗,以邏輯和系統的方式思考某件事情,進而做出決策。

大型語言模型(LLMs)以其通用性,在多項任務上都取得了出色的效能,雖然思維鏈(CoT)提示已經證明了大模型具備多步推理能力,但這種能力到底來自於「抽象泛化」(abstract generalization)還是「淺層」(shallow heuristics),仍然沒有定論。

為了深入理解影響 CoT 推理的因素,普林斯頓大學、耶魯大學的研究人員最近釋出了一項案例研究,使用三個大模型(GPT-4、Claude 3 和 Llama 3.1)利用CoT提示來執行解碼移位密碼(decoding shift ciphers)的符號推理任務。

論文地址:https://arxiv.org/abs/2407.01687

文中只關注這一個簡單的任務,能夠系統地分析出影響 CoT 效能的三個因素:任務的預期輸出(機率)、模型在預訓練期間隱式學習的內容(記憶),以及數量推理中涉及的中間操作(噪聲推理)。

實驗結果顯示,這些因素可以極大地影響模型的準確率,並且可以得出結論,CoT提示帶來的效能提升,既反映了模型在推理過程中有記憶的因素,也有真實推理的機率因素。

研究方法

以往的方法在研究模型推理能力時,往往在一系列複雜的推理任務上進行評估,其中任務的多樣性和複雜性可能會掩蓋CoT推理背後的影響因素,所以這篇論文只關注一個相對簡單的任務:使用移位密碼編碼的文字進行破譯(deciphering text encoded with a shift cipher)。

使用移位密碼(shift cipher)來編碼訊息的過程為,將每個字母替換為在字母表中向前移動一定數量位置(shift_level)的另一個字母;解碼則為相反的操作,即向後移動。

這種密碼也可以稱為旋轉密碼(rotation ciphers),過程等價於將字母表向前旋轉一定數量的步rot-k,其中k對應於shift_level

例如,給定測試詞「FDW」並使用rot-3加密(shift_level = 3),解碼需要將每個字母向後移動3步,即F → C,D → A,W → T,最後獲得解碼輸出「CAT」。

在實驗設計時,研究人員給大模型輸入一個使用移位密碼編碼的單詞,並要求模型對文字進行解碼以恢復原始單詞。

任務動機

研究人員使用移位密碼任務的主要出發點在於「任務複雜性」和「任務頻率」之間存在明顯的分離。

解密任務的複雜性也可以動態變化,移位級別(shift level)更高的密碼,需要更多中間步驟,也更復雜;不同的移位級別在網際網路文字中的頻率也不同,在大型語言模型的訓練資料中也是如此。

比如rot-13在網際網路論壇中廣泛用於隱藏文字,如謎題解答和劇透,而rot-3和rot-1通常用在解密教程中(rot-3也被稱為凱撒密碼)。

此外,移位密碼有助於研究機率的影響,因為正確答案可以是任意字串,可以很容易地調節字串的機率,並且生成樣本和正確性驗證也很容易。

最重要的是,解碼資訊時,每個字母都是一個獨立的步驟,更容易分析。

CoT在移位密碼上的影響

資料

研究人員構建了一個數據集,每個單詞包含7個字母(從詞表中組合3個字母和4個字母的單詞),用GPT-4分詞器後為2個token,以控制與分詞器無關的因素。

使用GPT-2計算對數機率,用句子「The word is "WORD"」的對數機率減去「The word is」的對數機率,然後把單詞按其對數機率評分,並按降序排列。

透過選擇等距的對數機率值作為中心,形成了五個區間,其中區間1具有最高的機率,區間5具有最低的機率,再手動檢查了資料集中的單詞,並進行了篩選,以確保沒有使用不恰當的單詞,其中每個區間包含150個單詞。

資料集中總共包含150個樣本,劃分為兩個子集:1)包含100個單詞以評估GPT-4;2)包含50個單詞,用於評估擬合到GPT-4在100個單詞子集上表現的邏輯迴歸模型。

最後在1-25移位級別上生成來自5個機率區間的單詞的移位密碼編碼版本,作為模型的輸入;評估只執行一次,基於100個樣本報告準確率。

評估提示

研究人員使用多種不同的提示對資料集的效能進行了評估:

1. 標準(standard)提示,只有任務描述和演示但沒有推理步驟的提示;

2. 文字思維鏈(Text-CoT),使模型逐個字母解碼訊息。

要想正確得到推理步驟,模型必須在預訓練期間學會字母表。

3. 數學思維鏈(Math-CoT),模型需要將每個字母轉換為數字,然後透過數字應用算術來執行移位,再將結果轉換回字母;提示中還指定了字母和位置之間的對映。

4. 數字序列思維鏈(Number-CoT),該任務基於數字域(即輸入和輸出是數字序列),與移位密碼同構;推理需要對數字序列中的輸入元素應用算術運算以獲得相應的輸出序列。

實驗結果

研究人員使用了開源和閉源模型進行實驗:GPT-4(gpt-4-0613),Claude 3(claude-3-opus-20240229),以及Llama-3.1-405B-Instruct,其中溫度設定為0,並將max_new_tokens設定為200。

在使用標準提示時,GPT-4在大多數移位級別上的準確率為零,但當使用文字CoT時,其準確率大幅提升(平均準確率達到32%),跟以前的研究結果相同,即CoT對移位密碼很有幫助,但仍然遠非完美;但在使用數字CoT時,GPT-4的表現結果幾乎達到了完美。

上述結果顯示,如果CoT提示中用到的是符號推理,那GPT-4的推理能力就會很完美;而事實上沒有得到完美分數,也表明了CoT推理並非純粹的符號推理。

儘管如此,CoT也很明顯優於標準提示,所以CoT推理不太可能僅僅是簡單的記憶。

如果CoT推理既不是簡單的記憶也不是純粹的符號推理,那會是什麼?

推理過程分解

研究人員考慮了大型語言模型(LLMs)可能採用的四種推理過程:

1. 符號推理(Symbolic reasoning)是使用離散的、確定性的推理規則。移位密碼可以透過簡單的符號演算法完美解碼,因此一個使用完全系統化推理的系統應該達到100%的準確率。

2. 噪聲推理(Noisy reasoning)類似於符號推理,但增加了噪聲,導致推理過程中每個中間操作出錯的可能性。如果系統使用噪聲推理,那應該看到隨著需要執行的運算元量的增加,準確率會下降;移位密碼可以測試出這種可能性:透過改變移位級別,可以調節每個推理步驟中需要執行的運算元量,並觀察準確率是否相應變化。

3. 記憶(Memorization)策略,模型可以記住在預訓練中遇到的任務,但無法泛化到新任務。如果LLMs所做的只是記憶,應該看到在預訓練中經常遇到的情況比那些不經常遇到的任務表現更好。

之前有研究表明,13是自然語料庫中最常見的移位級別,在一些網路社群中很常見。

4. 機率推理(Probabilistic reasoning)將任務框架為選擇給定輸入下最可能的輸出,推理會受到輸出的先驗機率的影響,機率推理器應該隨著正確答案的先驗機率增加,準確率也會有所提升。

對比假設準確率,研究人員發現,隨著移位級別的增加,準確率通常會下降,代表LLM在執行噪聲推理,並且是雙向噪聲推理,模型可以對字母進行向前或向後的移位來解碼訊息,例如,向後移動25個字母和向前移動1個字母相同,但後者的中間步驟更少;雙向性質的具體表現為,當移位級別從20變為25時,準確率會增加。

其次,模型進行機率推理的證據是,準確率在最高機率區間(區間1)遠高於最低機率區間(區間5),其中「高機率」大多為常見的單詞,如{mariner, shrines, paywall, ...},而「低機率」的情況大多是無意義的字母序列,如{xcbrouw, jsxrouw, levjspx, ...}。

最後,雖然移位級別13比其他移位級別需要更多的推理步驟,但移位級別13上的準確率存在一個峰值,代表模型執行了記憶(13是自然語料庫中最常見的移位級別)。

參考資料:

https://arxiv.org/abs/2407.01687

熱門資訊
  • 新冠後遺症突破性發現:榮周易/麥鴻成等揭示刺突蛋白或是新冠感染後神經損傷的主因 | 2024-11-30 12:30:22
  • 藍戟新品官宣 12 月 4 日釋出,預計為英特爾新一代Arc B580顯示卡 | 2024-11-30 12:35:55
  • 馬斯克上任政府效率部長 對NASA是噩夢還是福音? | 2024-11-30 12:43:00
  • 這一天,中國人首次實現“太空會師”! | 2024-11-30 12:51:02
  • 天鋇推出GEM12 Pro Max迷你主機:R7 8845HS,前後雙 USB 4 | 2024-11-30 13:07:08
  • Jim博士:崑崙策,一個9萬元註冊的小微公司 | 2024-11-30 13:24:52
  • 成都“智造”上新 乘坐國產飛機C919可以上網了 | 2024-11-30 13:24:55
  • 訊息稱臺積電 2nm 量產排期明年下半年 | 2024-11-30 13:27:29
  • 中國電信沙特公司正式成立 | 2024-11-30 13:46:09
  • 您可以借用這位YouTuber發射的衛星與地球自拍 | 2024-11-30 14:02:48
  • 科學家研發微型變形機器人,在100毫秒內實現40%面積伸縮和定向運動 | 2024-11-30 14:42:35
  • 一鍵掌控全屋智慧照明:飛利浦 Hue App 新增支援多橋連線 | 2024-11-30 15:06:48
  • vivo X200s資訊流出,藍廠這是要提前釋出嗎? | 2024-11-30 15:25:37
  • 給王振義院士一份特別的百歲生日禮物 | 2024-11-30 15:38:33
  • 搭建數推分離雙網路架構,「雙腦」大模型一體機突破落地算力瓶頸|早期專案 | 2024-11-30 15:39:48
  • 峰飛航空完成中國噸級以上eVTOL日本首飛 | 2024-11-30 15:42:54
  • 2nm成本太高:臺積電豪賭,蘋果觀望 | 2024-11-30 15:43:00
  • 微星 Lunar Lake 系列處理器 Claw 8 AI+ 遊戲掌機現身 | 2024-11-30 15:45:27
  • 部分佳明 Garmin 智慧手錶使用者反饋更新韌體後錶盤崩潰 | 2024-11-30 15:47:57
  • 蘋果在美國提升 iPad 機型裝置折抵換購價值,至高可多獲 35 美元 | 2024-11-30 15:55:40
  • 重大突破!華中科技大學攻克晶片光刻膠關鍵技術 | 2024-11-30 16:48:19
  • 美商海盜船推出 iCUE LINK TITAN RX LCD 水冷散熱器,199 美元起 | 2024-11-30 17:00:50
  • 華碩“PA24US”23.6 英寸影視行業用顯示器國行釋出,19979 元 | 2024-11-30 17:21:34
  • 小米在歐洲推出掃拖機器人 X20 Pro:7000Pa 吸力,499.99 歐元 | 2024-11-30 17:41:16
  • 俄羅斯人手搓的自研晶片,究竟什麼水平? | 2024-11-30 17:44:57
  • 福耀科技大學&浙江大學蔣建中/王曉東《Small》:鈀基金屬玻璃中動力學多樣性的結構起源 | 2024-11-30 17:45:02
  • Science封面:基因組基礎模型 Evo,從分子到基因組理解生命複雜性 | 2024-11-30 17:45:06
  • 官宣!華為+廣汽,聯手造車! | 2024-11-30 18:21:58
  • “2024新一代人工智慧(深圳)創業創新大賽”總決賽收官 八方地動獲得冠軍 | 2024-11-30 18:22:00
  • 龍哥又瞞了所有人!外媒猜測中國做太空實驗,疑在擴張太空地盤 | 2024-11-30 18:23:55
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們