時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

LLM為何頻頻翻車算術題?最新研究追蹤單個神經元,「大腦短路」才是根源

2024-11-20 12:10:53

新智元報道

編輯:peter東 喬楊

【新智元導讀】大模型在數學問題上的表現不佳,原因在於採取啟發式演算法進行數學運算的,透過定位到多層感知機(MLP)中的單個神經元,可以對進行數學運算的具體過程進行解釋。

由於缺少對執行邏輯的解釋,大模型一向被人稱為「黑箱」,但近來的不少研究已能夠在單個神經元層面上解釋大模型的執行機制。

例如Claude在2023年發表的一項研究,將大模型中大約500個神經元分解成約4000個可解釋特徵。

而10月28日的一項研究,以算術推理作為典型任務,借鑑類似的研究方法,確定了大模型中的一個模型子集,能解釋模型大部分的基本算術邏輯行為。

論文地址:https://arxiv.org/abs/2410.21272

該研究首先定位了Llama3-8B/70B, Pythia-6.9B及GPT-J四個模型中負責算術計算的模型子集。

如圖1所示,少數注意力頭對大模型面對算術問題的正確率有顯著影響。第一個 MLP(多層感知機) 明顯影響運算元和運算子位置,而中間層和後期層的 MLP 將token資訊投影到最後位置,提升正確答案的出現機率。

圖1:Llama3-8B中發現算術相關的模型子集

該研究聚焦於單個神經元層面,發現了一組重要的神經元,它們實現了簡單的啟發式演算法。只需要關注特定的極少量神經元,就能正確預測大模型進行算術運算的結果(圖2)。

圖2:大模型 中每層神經元中只需要關注1.5%的少數子集,就能預測大模型進行四則運算的結果

舉個例子:當輸入的提示詞為“ 226−68= ”時,神經元24|12439在結果介於150和180的減法提示下顯示出高啟用值,可被視為一個啟發式演算法。而每個啟發式演算法識別一個數值輸入模式,並輸出相應的答案。

具體可分為兩種不同的啟用模式:第一種直接啟發式指的是在某些神經元中,啟用模式取決於兩個運算元,值向量編碼了算術計算的預期結果(圖 3b,c)。

第二種間接啟用模式取決於單個運算元對應的神經元中,值向量通常編碼下游處理的特徵,而不是直接的計算結果(圖3a)。

圖3:啟發式方法的視覺化

神經元和運算的因果聯絡

該如何確認特定神經元和相關數學運算之間存在因果關係?一種常見的方法是消融分析,即將大模型大模型中特定的神經元敲除,看看模型的效果會有何改變,結果如圖4所示。

圖4:四則運算中敲除對應的算術神經元后模型的效能對比

去掉了對應神經元后,模型的運算準確性無論加減乘除都顯著下降。

不僅如此,相比去除特定算術神經元時造成的效能下降,可以發現,去除隨機神經元的影響相對較小,而且這種效應在模型8B和70B不同引數量中普遍存在。

圖5:敲除與算術相關的啟發式演算法的神經元(實線)相比與算術無關的相同數量的隨機神經元(虛線)

上述結果表明,可僅根據其相關啟發式演算法來識別對特定對大模型進行算術重要的神經元,也證明了屬於幾個啟發式演算法的神經元與提示正確完成之間的因果關係。

此外,該結果還支援了啟發式演算法集合的主張:即每個啟發式演算法僅略微提高正確答案的機率,但它們結合在一起,使得大模型以高機率產生算術題的正確答案。

大模型為何做不對算術題

Llama3-8B模型無法可靠地對每道算術題時給出正確的回答。基於啟發式規則,該研究闡述了模型為何會做錯,可能的機制共有兩種:

第一,由於引數量的限制,大模型缺乏足夠的算術神經元,無法針對每一種情況都給出應對。

第二種原因是,可能存在回憶不完整的情況,比如某個啟發式規則對應的神經元沒有在運算時被觸發。

圖6:隨機抽取了50個正確完成和50個錯誤完成的算術題目,考察大模型中被正確和錯誤啟用的算術神經元個數

如圖6所示,在大模型回答正確及錯誤時,啟用的算術神經元個數不存在差異,這不支援前述的第一種算術神經元個數不足的假設。

然而,在大模型回答正確的情況下,更多比例的正確神經元被激活了,而回答錯誤的案例中,應當被啟用的神經元啟用機率反而較小。

這意味著大模型在特定算術題上失敗的主要原因是對能得出正確答案的神經元缺少泛化能力,而不是算術神經元的數量不足。

「算術神經元」何時誕生

由於其訓練檢查點可供公眾獲取,該研究採用Pythia-6.9B來考察大模型過程中算術神經元的出現階段。

結果顯示,大模型在訓練過程中逐漸發展其最終的算術啟發式機制,且算術神經元在模型訓練早期就已出現。

圖7 :啟發式的算術神經元的百分比隨著訓練增加

在模型訓練的不同階段,移除特定的啟發式神經元會大幅降低模型在所有訓練檢查點的準確性,這表明算術準確性主要來自啟發式,即使在早期階段也是如此。算術啟發式神經元與大模型算術能力的因果關係在整個訓練過程中都存在。

圖8:不同階段敲除算術神經元對大模型進行算術運算準確性的影響

結論

理解大模型如何進行數學運算,不僅可以開啟大模型內部執行的黑箱,解釋它們為何在簡單的數學題上翻車,例如最著名的「9.11和9.8哪個大」。

這項研究告訴我們,並不是因為大模型缺少相關訓練,而是激活了錯誤的啟發式神經元,例如將這個問題當成了詢問哪個版本更大。

理解了大模型的算術運算,是依賴於啟發式方法集,而非單純的依靠記憶(背題目)或學會規則,這表明提高大模型的數學能力可能需要訓練和架構的根本性改變,而不是像啟用引導這樣的小修小補。

對訓練過程的分析結果指出,大模型在訓練早期就學會了這些啟發式方法,並隨時間推移逐漸強化。這可能會導致模型過度擬合到早期的簡單策略,因此可作為之後最佳化方向的參考。

參考資料:

https://arxiv.org/abs/2410.21272

熱門資訊
  • 重大突破!5所高校,獲批國家級重大專案 | 2024-11-26 20:33:37
  • 現在預定立減100元 華為新一代MatePad Pro 13.2英寸京東開啟預售 | 2024-11-26 20:34:58
  • 內地做工最好的Z890主機板!七彩虹iGame Z890 Vulcan X黑火神評測:Ultra 9 285K輕鬆降壓0.1V 降溫20度 | 2024-11-26 20:38:40
  • 長征十二號遙一運載火箭成功轉場,將於近期擇機發射 | 2024-11-26 20:40:23
  • 三星 XR 頭顯專利曝光,設計類似 PICO 4 Pro | 2024-11-26 20:41:42
  • 中國登月進入倒計時!央視曝光“登月畫面”,看來這絕不是玩笑了 | 2024-11-26 20:43:43
  • 三大運營商10月成績單出爐!中國移動繼續領跑 | 2024-11-26 20:50:32
  • 搶佔6G空天地一體化制高點!華為將率先支援低軌衛星直連手機 | 2024-11-26 20:50:44
  • 倍思 M2s Ultra 智慧觸控降噪耳機上市,首發 349 元 | 2024-11-26 20:56:56
  • 【IT之家評測室】小巧體積,強大效能,DJI Mic Mini 上手體驗 | 2024-11-26 21:16:10
  • 大疆 DJI Mic Mini 無線麥克風釋出,299 元起 | 2024-11-26 21:16:12
  • VXE 公佈中文名“威界”:釋出星閃 R1 滑鼠,首發 89 元 | 2024-11-26 21:17:49
  • 不到三萬,華為智慧穿戴新品開箱丨看看想買哪款? | 2024-11-26 21:54:02
  • NASA核動力飛行器探尋地外生命 但要延期到2028年 | 2024-11-26 23:11:04
  • 這4個隱蔽的壞習慣,正在偷偷傷害你的大腦 | 2024-11-26 23:31:42
  • 揭示Transformer「週期建模」缺陷!北大提出新型神經網路FAN,填補週期性特徵建模能力缺陷 | 2024-11-26 23:54:57
  • SpaceX將執行核動力直升機蜻蜓號承載任務,探索生命存在的可能性 | 2024-11-26 23:54:59
  • NASA授予SpaceX使用獵鷹重型火箭執行“蜻蜓”發射任務 | 2024-11-26 23:55:16
  • Yeelight 易來推出智慧開關 T2:白瓷青墨雙色,144 元起 | 2024-11-27 00:06:48
  • 《黑神話》等令高效能本熱賣 中國膝上型電腦均價已超6400元 | 2024-11-27 00:21:12
  • 日本新型固體燃料火箭試驗再次發生異常 | 2024-11-27 00:24:29
  • RTX 50桌面版只用三星GDDR7視訊記憶體!另兩大巨頭委身筆記本 | 2024-11-27 01:26:18
  • 梅賽德斯-賓士現已推出 Apple Watch 版移動應用 | 2024-11-27 04:05:49
  • 李政道骨灰歸葬蘇州,與去世28年的夫人永遠相伴,其子曾稱:父親的遺願是與母親合葬 | 2024-11-27 04:31:10
  • 改造基因、克隆無腦人,富豪在宏都拉斯打造長生島 | 2024-11-27 04:36:13
  • 全球前20科研城市一半在中國,“北上廣之外,省會城市迅速崛起” | 2024-11-27 05:13:08
  • 成渝合作+1!金鳳實驗室與天府錦城實驗室(未來醫學城)簽署合作協議 | 2024-11-27 05:19:17
  • 五家晶片巨頭,研發投入大PK | 2024-11-27 05:36:51
  • 特斯拉曬出極端場景測試影片,大秀FSD安全性 | 2024-11-27 06:52:07
  • 餘承東:Mate70對得起那四字 靠抄襲沒未來 | 2024-11-27 07:00:36
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們