時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

揭示Transformer「週期建模」缺陷!北大提出新型神經網路FAN,填補週期性特徵建模能力缺陷

2024-11-26 23:54:57

新智元報道

編輯:LRST

【新智元導讀】北京大學研究團隊開發的FAN模型能有效捕捉資料中的週期性模式,相比傳統模型在多項任務中表現出色,同時降低了引數量和計算量,增強了對週期性特徵的建模能力,應用潛力廣泛。

週期性現象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規律都顯式或隱式地包含週期性,例如,天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業週期、物理學中的電磁波,以及數學運算和邏輯推理等。

因此,在許多工和場景中,人們希望對週期進行建模,以便根據以往的經驗進行推理。

儘管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功,但是它們卻在週期性建模方面存在潛在的缺陷。

即使面對簡單的正弦函式,現有基礎模型也難以理解其中的週期性規律,在外推時表現出完全失控的狀態,未能有效捕捉到週期性現象的本質。

為此,北京大學李戈教授的團隊提出了一種新型網路架構FAN(Fourier Analysis Networks)。透過引入傅立葉級數的思想,FAN能夠將週期性資訊直接嵌入網路的結構中,使模型更自然地捕捉和理解資料中的週期性模式。

實驗表明,FAN不僅在週期性建模上的表現顯著優於現有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色,超過了Transformer等主流模型。

論文連結:https://arxiv.org/pdf/2410.02675.pdf

程式碼連結:https://github.com/YihongDong/FAN

圖1 不同基礎模型在其訓練資料域內外對正弦函式的表現,其中x為標量

研究者認為,許多實際任務都顯式或者隱式地包含潛在的週期性特徵,良好的週期性建模對於提升模型在這些任務上的表現是必要的,而現有基礎模型嚴重依賴資料驅動的最佳化方式,缺少明確的機制來理解資料中的根本原理。

FAN的意義在於,它提供了一種全新的正規化來有效地建模週期性,能夠無縫替換傳統MLP,同時減少引數量和計算量,填補了當前基礎模型在週期性建模上的缺陷,並展示出廣泛的應用潛力。

圖2 MLP Layer和FAN Layer的示例

本文的通訊作者是北京大學計算機學院長聘教授、教育部長江學者李戈。第一作者:董益宏,北京大學計算機學院22級博士生,曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A類/SCI一區國際頂級會議和期刊上發表11篇學術論文。

FAN的實現細節

北大研究團隊首先構建一個簡單神經網路來建模傅立葉級數,然後在此基礎上設計了FAN網路架構。

為構建一個簡單的神經網路表示函式的傅立葉級數展開,我們可以將表示為:

其中是可學習引數,(I) 根據和透過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[·||·] 和 [·, ·] 分別表示沿第一維度和第二維度的連線。

因此,可以表示為:

其中表示左側函式作用於右側輸入x,即。

然而,我們發現直接堆疊會導致模型的主要引數集中於學習角頻率,從而忽略了傅立葉係數和的學習,如下所示:

其中定義為用於近似角頻率,用於近似傅立葉係數。

因此,擬合傅立葉係數的能力與的深度無關,這是一個不理想的結果。

為了應對這一問題,研究團隊根據以下原則設計了FAN:

1. FAN 表示傅立葉係數的能力應與其深度正相關;

2. 任何隱藏層的輸出都可以通過後續層使用傅立葉級數來建模週期性。

第一個原則透過利用FAN的深度增強了其週期性建模的表現力,而第二個原則確保FAN中間層的特徵可用於執行週期性建模。

假設我們將解耦為:

其中,

為了滿足這兩個原則,FAN的中間層輸入需要同時使用和而不是依次應用它們。

最終,FAN 基於此設計,其FAN層定義如下:

其中是可學習引數,表示啟用函式。

整個FAN定義為FAN Layer的堆疊:

其中,

FAN的效能表現

週期建模

圖3 FAN在週期性建模中的表現與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練資料域內的測試資料,而藍線表示訓練資料域外的測試資料

圖3展示了FAN和其他模型在週期性建模中的表現。結果表明,現有的神經網路(包括 MLP、KAN 和 Transformers)在建模週期性方面表現出明顯的不足。儘管它們試圖擬合這些週期函式,但其內在能力限制了它們在大範圍週期性上的效能表現。

相比之下,FAN在所有這些週期性建模任務中都明顯優於基線。更值得一提的是,FAN在訓練資料域內和域外的測試資料上都表現得非常出色,表明它能夠真正理解週期性的深刻原理並對其進行精準建模,而不僅僅是記住訓練資料。

圖4 不同模型在學習複雜週期函式任務上的訓練和測試損失比較

研究團隊還分析了不同模型在學習複雜週期函式任務上的訓練過程,如圖4所示,結果如下:

1. FAN在收斂速度和最終效果方面都遠遠超過其他模型;

2. 與FAN相比,FAN (Gated) 通常可以實現更快的收斂,但最終效能仍然相當;

3. 隨著訓練輪數的增加,雖然其他模型的訓練損失變得穩定或逐漸減少,但它們的建模可能與測試資料的分佈有很大差異,導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉週期性方面的缺陷。

符號公式表示

圖5 不同模型在符號公式表示任務中不同引數量的表現

從不同模型應用於數學和物理學中四個常見函式的表現中可以觀察到,雖然 KAN 在引數數量較少時能與FAN相媲美,但隨著引數數量的增加,其效能會顯著下降。

相反,隨著引數數量的增加,FAN擬合這些函式始終優於其他基線,包括 MLP、KAN 和 Transformer,儘管這些函式中的許多隻是部分週期性的或完全非週期性的。

這些結果表明,FAN不僅增強了對週期性的建模能力,同時也沒有損害擬合非週期性函式的能力。

時間序列預測

如表2 所示,研究團隊在四個公共資料集上比較了結合FAN的Transformer 和其他序列模型在時間序列預測任務上的表現。在大多數情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合FAN和FAN(Gated)的Transformer 在這些任務上取得了最佳效能。

它們相對於標準 Transformer 的改進是顯著的,平均相對改進範圍為14.3%-15.0%的 MSE和7.6%-7.9%的MAE。

這些結果表明,在神經網路中加入顯式週期模式編碼可以提高實際應用中的時間序列預測效能。

語言建模

探究者報告了不同序列模型在四種情緒分析資料集上的效能比較,如表3所示。

可以發現,結合FAN和FAN(Gated)的Transformer與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現出明顯優越的效能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 資料集上的零樣本跨領域表現。

結合FAN的 Transformer 在損失和準確度方面分別實現了最14.65%和8.50%的相對改進,同時將引數數量減少了約 14.16M。結果表明週期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。

FAN的表達能力和應用範圍

FAN在理論上具有與MLP相同的表達能力,因為它也遵循通用近似定理,這確保了其函式近似能力。不同的是,FAN透過明確納入週期性,引入了重要的功能增強,這是傳統MLP所不具備的。

FAN的這一設計,不僅全面繼承了MLP的既有優勢,還增強了其捕獲資料週期性特徵的能力。因此,FAN可以作為MLP的有力替代品。

當然,FAN的實用性不僅限於明確需要週期性建模的任務,在更廣泛的應用中也展現出強大的適用性。研究團隊透過一系列現實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,FAN的表現明顯優於MLP和其他基線模型。

事實上,許多看似與週期性無直接關聯的機器學習任務,如數學運算和邏輯推理,實際上也可能隱藏著週期性。

如果神經網路缺乏針對週期性特徵進行建模的能力,則可能會損害其學習效率。

從更深層次的角度來看,週期性不僅僅是一種資料特徵,還反映了一種規律或知識,即允許抽象的規則和原理在不同上下文之間轉移和重用。

總結來看,FAN與MLP相比,不僅增強了週期性建模能力,且引數量和計算量更少,有望成為基礎模型的關鍵組成部分。

未來,北大研究團隊將進一步擴大FAN的應用範圍,增強其作為基礎模型元件的表現,持續推動基礎模型的技術進步與創新發展。

參考資料:

https://arxiv.org/pdf/2410.02675.pdf

熱門資訊
  • RTX 50桌面版只用三星GDDR7視訊記憶體!另兩大巨頭委身筆記本 | 2024-11-27 01:26:18
  • 梅賽德斯-賓士現已推出 Apple Watch 版移動應用 | 2024-11-27 04:05:49
  • 李政道骨灰歸葬蘇州,與去世28年的夫人永遠相伴,其子曾稱:父親的遺願是與母親合葬 | 2024-11-27 04:31:10
  • 改造基因、克隆無腦人,富豪在宏都拉斯打造長生島 | 2024-11-27 04:36:13
  • 全球前20科研城市一半在中國,“北上廣之外,省會城市迅速崛起” | 2024-11-27 05:13:08
  • 成渝合作+1!金鳳實驗室與天府錦城實驗室(未來醫學城)簽署合作協議 | 2024-11-27 05:19:17
  • 五家晶片巨頭,研發投入大PK | 2024-11-27 05:36:51
  • 特斯拉曬出極端場景測試影片,大秀FSD安全性 | 2024-11-27 06:52:07
  • 餘承東:Mate70對得起那四字 靠抄襲沒未來 | 2024-11-27 07:00:36
  • 晶片堆疊技術又來了,這次是美國晶片,可大幅提升效能 | 2024-11-27 07:00:40
  • SpaceX終於將星際飛船第六次測試飛行所用的助推器部件沉入水中 | 2024-11-27 07:17:12
  • 三星 3D NAND 量產提效:光刻膠用量減半,每年節省數十億韓元 | 2024-11-27 07:19:07
  • 50多位院士參會!中國工程院深地深海深空物質資源開發利用學術研討會通知(第三輪) | 2024-11-27 07:21:33
  • 2024量子科技和產業大會即將舉辦 量子計算市場加速商業化 | 2024-11-27 07:21:38
  • 華科吳豪等《AFM》:定向排汗水凝膠混合電子系統 | 2024-11-27 07:25:12
  • 近50位院士出席!這場大會,為成都產業發展注入強勁動力 | 2024-11-27 07:25:24
  • 國產首顆全電推通訊衛星“亞太6E”正式在軌交付 | 2024-11-27 07:25:27
  • 最高預售價150萬元!江淮聯手華為進軍高階車 | 2024-11-27 07:43:00
  • 工作效率比人工巡檢提高近10倍!全國首臺光伏儲能“駐塔式”無人機在新疆正式投入執行【附低空經濟產業鏈龍頭企業彙總】 | 2024-11-27 07:43:06
  • 戴爾釋出2025 財年Q3財報:營收244 億美元 同比增10% | 2024-11-27 07:43:17
  • 亞馬遜被曝啟動“登月”計劃:部署 10 萬顆二代自研晶片 | 2024-11-27 07:44:27
  • 股價暴跌,市值縮水,Cassava阿爾茨海默症藥物3期試驗失敗 | 2024-11-27 07:48:30
  • 《麻省理工科技評論》35歲以下科技創新35人亞太區報名正在進行 | 2024-11-27 08:09:26
  • 特朗普勝選後,墨西哥對比亞迪建廠計劃猶豫了 | 2024-11-27 08:19:57
  • 英特爾獲美國政府78.7億美元撥款 用於建設新工廠 | 2024-11-27 08:20:06
  • 順豐方舟量產無人機亮相:載重50公斤 能飛20公里 | 2024-11-27 08:24:33
  • 唐啟升、焦念志、戴民漢、張偲等41位兩院院士當選!中國生態學學會創始會士名單公佈! | 2024-11-27 08:27:03
  • 腦洞大開!荷蘭科學家利用基因改造過蚊子為人類接種疫苗,有效性接近90%【附基因編輯技術分析】 | 2024-11-27 08:52:29
  • 巨無霸:英偉達 RTX 4090 Ti 顯示卡再次曝光,四槽位設計 | 2024-11-27 08:55:47
  • 綠色辦公:飛利浦推出 3 款環保顯示器,最高節能 80% | 2024-11-27 09:16:30
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們