時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

揭示Transformer「週期建模」缺陷!北大提出新型神經網路FAN,填補週期性特徵建模能力缺陷

2024-11-26 23:54:57

新智元報道

編輯:LRST

【新智元導讀】北京大學研究團隊開發的FAN模型能有效捕捉資料中的週期性模式,相比傳統模型在多項任務中表現出色,同時降低了引數量和計算量,增強了對週期性特徵的建模能力,應用潛力廣泛。

週期性現象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規律都顯式或隱式地包含週期性,例如,天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業週期、物理學中的電磁波,以及數學運算和邏輯推理等。

因此,在許多工和場景中,人們希望對週期進行建模,以便根據以往的經驗進行推理。

儘管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功,但是它們卻在週期性建模方面存在潛在的缺陷。

即使面對簡單的正弦函式,現有基礎模型也難以理解其中的週期性規律,在外推時表現出完全失控的狀態,未能有效捕捉到週期性現象的本質。

為此,北京大學李戈教授的團隊提出了一種新型網路架構FAN(Fourier Analysis Networks)。透過引入傅立葉級數的思想,FAN能夠將週期性資訊直接嵌入網路的結構中,使模型更自然地捕捉和理解資料中的週期性模式。

實驗表明,FAN不僅在週期性建模上的表現顯著優於現有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色,超過了Transformer等主流模型。

論文連結:https://arxiv.org/pdf/2410.02675.pdf

程式碼連結:https://github.com/YihongDong/FAN

圖1 不同基礎模型在其訓練資料域內外對正弦函式的表現,其中x為標量

研究者認為,許多實際任務都顯式或者隱式地包含潛在的週期性特徵,良好的週期性建模對於提升模型在這些任務上的表現是必要的,而現有基礎模型嚴重依賴資料驅動的最佳化方式,缺少明確的機制來理解資料中的根本原理。

FAN的意義在於,它提供了一種全新的正規化來有效地建模週期性,能夠無縫替換傳統MLP,同時減少引數量和計算量,填補了當前基礎模型在週期性建模上的缺陷,並展示出廣泛的應用潛力。

圖2 MLP Layer和FAN Layer的示例

本文的通訊作者是北京大學計算機學院長聘教授、教育部長江學者李戈。第一作者:董益宏,北京大學計算機學院22級博士生,曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A類/SCI一區國際頂級會議和期刊上發表11篇學術論文。

FAN的實現細節

北大研究團隊首先構建一個簡單神經網路來建模傅立葉級數,然後在此基礎上設計了FAN網路架構。

為構建一個簡單的神經網路表示函式的傅立葉級數展開,我們可以將表示為:

其中是可學習引數,(I) 根據和透過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[·||·] 和 [·, ·] 分別表示沿第一維度和第二維度的連線。

因此,可以表示為:

其中表示左側函式作用於右側輸入x,即。

然而,我們發現直接堆疊會導致模型的主要引數集中於學習角頻率,從而忽略了傅立葉係數和的學習,如下所示:

其中定義為用於近似角頻率,用於近似傅立葉係數。

因此,擬合傅立葉係數的能力與的深度無關,這是一個不理想的結果。

為了應對這一問題,研究團隊根據以下原則設計了FAN:

1. FAN 表示傅立葉係數的能力應與其深度正相關;

2. 任何隱藏層的輸出都可以通過後續層使用傅立葉級數來建模週期性。

第一個原則透過利用FAN的深度增強了其週期性建模的表現力,而第二個原則確保FAN中間層的特徵可用於執行週期性建模。

假設我們將解耦為:

其中,

為了滿足這兩個原則,FAN的中間層輸入需要同時使用和而不是依次應用它們。

最終,FAN 基於此設計,其FAN層定義如下:

其中是可學習引數,表示啟用函式。

整個FAN定義為FAN Layer的堆疊:

其中,

FAN的效能表現

週期建模

圖3 FAN在週期性建模中的表現與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練資料域內的測試資料,而藍線表示訓練資料域外的測試資料

圖3展示了FAN和其他模型在週期性建模中的表現。結果表明,現有的神經網路(包括 MLP、KAN 和 Transformers)在建模週期性方面表現出明顯的不足。儘管它們試圖擬合這些週期函式,但其內在能力限制了它們在大範圍週期性上的效能表現。

相比之下,FAN在所有這些週期性建模任務中都明顯優於基線。更值得一提的是,FAN在訓練資料域內和域外的測試資料上都表現得非常出色,表明它能夠真正理解週期性的深刻原理並對其進行精準建模,而不僅僅是記住訓練資料。

圖4 不同模型在學習複雜週期函式任務上的訓練和測試損失比較

研究團隊還分析了不同模型在學習複雜週期函式任務上的訓練過程,如圖4所示,結果如下:

1. FAN在收斂速度和最終效果方面都遠遠超過其他模型;

2. 與FAN相比,FAN (Gated) 通常可以實現更快的收斂,但最終效能仍然相當;

3. 隨著訓練輪數的增加,雖然其他模型的訓練損失變得穩定或逐漸減少,但它們的建模可能與測試資料的分佈有很大差異,導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉週期性方面的缺陷。

符號公式表示

圖5 不同模型在符號公式表示任務中不同引數量的表現

從不同模型應用於數學和物理學中四個常見函式的表現中可以觀察到,雖然 KAN 在引數數量較少時能與FAN相媲美,但隨著引數數量的增加,其效能會顯著下降。

相反,隨著引數數量的增加,FAN擬合這些函式始終優於其他基線,包括 MLP、KAN 和 Transformer,儘管這些函式中的許多隻是部分週期性的或完全非週期性的。

這些結果表明,FAN不僅增強了對週期性的建模能力,同時也沒有損害擬合非週期性函式的能力。

時間序列預測

如表2 所示,研究團隊在四個公共資料集上比較了結合FAN的Transformer 和其他序列模型在時間序列預測任務上的表現。在大多數情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合FAN和FAN(Gated)的Transformer 在這些任務上取得了最佳效能。

它們相對於標準 Transformer 的改進是顯著的,平均相對改進範圍為14.3%-15.0%的 MSE和7.6%-7.9%的MAE。

這些結果表明,在神經網路中加入顯式週期模式編碼可以提高實際應用中的時間序列預測效能。

語言建模

探究者報告了不同序列模型在四種情緒分析資料集上的效能比較,如表3所示。

可以發現,結合FAN和FAN(Gated)的Transformer與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現出明顯優越的效能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 資料集上的零樣本跨領域表現。

結合FAN的 Transformer 在損失和準確度方面分別實現了最14.65%和8.50%的相對改進,同時將引數數量減少了約 14.16M。結果表明週期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。

FAN的表達能力和應用範圍

FAN在理論上具有與MLP相同的表達能力,因為它也遵循通用近似定理,這確保了其函式近似能力。不同的是,FAN透過明確納入週期性,引入了重要的功能增強,這是傳統MLP所不具備的。

FAN的這一設計,不僅全面繼承了MLP的既有優勢,還增強了其捕獲資料週期性特徵的能力。因此,FAN可以作為MLP的有力替代品。

當然,FAN的實用性不僅限於明確需要週期性建模的任務,在更廣泛的應用中也展現出強大的適用性。研究團隊透過一系列現實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,FAN的表現明顯優於MLP和其他基線模型。

事實上,許多看似與週期性無直接關聯的機器學習任務,如數學運算和邏輯推理,實際上也可能隱藏著週期性。

如果神經網路缺乏針對週期性特徵進行建模的能力,則可能會損害其學習效率。

從更深層次的角度來看,週期性不僅僅是一種資料特徵,還反映了一種規律或知識,即允許抽象的規則和原理在不同上下文之間轉移和重用。

總結來看,FAN與MLP相比,不僅增強了週期性建模能力,且引數量和計算量更少,有望成為基礎模型的關鍵組成部分。

未來,北大研究團隊將進一步擴大FAN的應用範圍,增強其作為基礎模型元件的表現,持續推動基礎模型的技術進步與創新發展。

參考資料:

https://arxiv.org/pdf/2410.02675.pdf

熱門資訊
  • 量子力學到底講了些什麼?如何通俗理解? | 2024-11-11 20:35:36
  • “鬼壓床”、強迫症、選擇困難症、臉盲症……都可以在神經科學中找到答案 | 2024-11-11 20:53:57
  • HyperX 推出先鋒 75 無線機械鍵盤:8KHz 輪詢率,1699 元 | 2024-11-11 20:55:54
  • 英特爾明年末將推Panther Lake處理器大核顯版 採用18A工藝 | 2024-11-11 20:55:56
  • 英特爾或2026年底推出Wildcat Lake處理器 採用單通道記憶體 | 2024-11-11 20:55:59
  • AMD RDNA4移動端獨立顯示卡陣容曝光 涵蓋四種型號兩種封裝 | 2024-11-11 20:56:01
  • 佰維儲存推出 LPDDR5X 記憶體:速率 8533Mbps,最高 16GB | 2024-11-11 20:56:03
  • 微星“491CQPX”顯示器上市,雙 2K 240Hz QD-OLED,949.99 美元 | 2024-11-11 21:06:43
  • 行政長官賀一誠登臨國航C919客機 為載旗國產大飛機點贊 | 2024-11-11 21:14:07
  • 我國成功發射“吉林一號”高分05B及平臺02A03星 | 2024-11-11 21:14:11
  • 浩鑫推出 XPC slim 迷你主機,支援擴充套件 5G 模組 | 2024-11-11 22:19:47
  • 全球容量最大!超重力離心模擬與實驗裝置在杭州初步建成 | 2024-11-11 22:22:11
  • 假如直升機一直懸停,24小時之後能繞行地球一圈嗎? | 2024-11-11 23:25:17
  • 生物學中的四大數學模型 | 2024-11-11 23:35:26
  • 為什麼嚴禁反對轉基因的人給我的文章留言? | 2024-11-11 23:39:51
  • 解析量子的兩個基本原理 | 2024-11-12 00:17:05
  • RFdiffusion:蛋白從頭設計的通用深度學習演算法,用於互作蛋白篩選 | 2024-11-12 00:24:11
  • 國家航天局總工程師李國平:鼓勵商業航天企業參與國家工程專案 | 2024-11-12 00:57:19
  • 小米雙11全渠道累計支付金額破319億元 創歷年新紀錄 | 2024-11-12 00:59:25
  • 美國銀行:AMD市場份額明顯領先英特爾 | 2024-11-12 01:00:38
  • 被看好的這類晶片,風險大增! | 2024-11-12 01:44:24
  • 《自然》連發3文,直指癌症的“生命線”︱新聞串燒 | 2024-11-12 02:17:47
  • 華為申請硫化物固態電池專利 大幅提升鋰離子電池壽命和效能 | 2024-11-12 02:47:16
  • 清華學者打造新型電熱方案,已開始推進中試開發 | 2024-11-12 02:54:35
  • 創新的混合太陽能裝置將光伏電池板和儲能裝置結合在一起 | 2024-11-12 02:58:41
  • 生命盡頭的端粒密碼:壽命的極限會在哪? | 2024-11-12 02:58:44
  • Nature子刊:乳酸太毒了!導致耗竭T細胞功能障礙,促進腫瘤免疫逃逸 | 2024-11-12 03:47:42
  • 月球背面月壤樣品首次亮相 2024 中國航展 | 2024-11-12 04:57:31
  • 一箭15星!力箭一號“五戰五捷” | 2024-11-12 04:57:33
  • 8天變8個月!滯留太空150多天的宇航員,瘦成了皮包骨錐子臉?NASA:她很健康! | 2024-11-12 05:22:39
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們