揭示Transformer「週期建模」缺陷！北大提出新型神經網路FAN，填補週期性特徵建模能力缺陷

新智元報道

編輯：LRST

【新智元導讀】北京大學研究團隊開發的FAN模型能有效捕捉資料中的週期性模式，相比傳統模型在多項任務中表現出色，同時降低了引數量和計算量，增強了對週期性特徵的建模能力，應用潛力廣泛。

週期性現象廣泛存在，深刻影響著人類社會和自然科學。作為最重要的基本特性之一，許多規律都顯式或隱式地包含週期性，例如，天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業週期、物理學中的電磁波，以及數學運算和邏輯推理等。

因此，在許多工和場景中，人們希望對週期進行建模，以便根據以往的經驗進行推理。

儘管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功，但是它們卻在週期性建模方面存在潛在的缺陷。

即使面對簡單的正弦函式，現有基礎模型也難以理解其中的週期性規律，在外推時表現出完全失控的狀態，未能有效捕捉到週期性現象的本質。

為此，北京大學李戈教授的團隊提出了一種新型網路架構FAN（Fourier Analysis Networks）。透過引入傅立葉級數的思想，FAN能夠將週期性資訊直接嵌入網路的結構中，使模型更自然地捕捉和理解資料中的週期性模式。

實驗表明，FAN不僅在週期性建模上的表現顯著優於現有模型，而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色，超過了Transformer等主流模型。

論文連結：https://arxiv.org/pdf/2410.02675.pdf

程式碼連結：https://github.com/YihongDong/FAN

圖1 不同基礎模型在其訓練資料域內外對正弦函式的表現，其中x為標量

研究者認為，許多實際任務都顯式或者隱式地包含潛在的週期性特徵，良好的週期性建模對於提升模型在這些任務上的表現是必要的，而現有基礎模型嚴重依賴資料驅動的最佳化方式，缺少明確的機制來理解資料中的根本原理。

FAN的意義在於，它提供了一種全新的正規化來有效地建模週期性，能夠無縫替換傳統MLP，同時減少引數量和計算量，填補了當前基礎模型在週期性建模上的缺陷，並展示出廣泛的應用潛力。

圖2 MLP Layer和FAN Layer的示例

本文的通訊作者是北京大學計算機學院長聘教授、教育部長江學者李戈。第一作者：董益宏，北京大學計算機學院22級博士生，曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A類/SCI一區國際頂級會議和期刊上發表11篇學術論文。

FAN的實現細節

北大研究團隊首先構建一個簡單神經網路來建模傅立葉級數，然後在此基礎上設計了FAN網路架構。

為構建一個簡單的神經網路表示函式的傅立葉級數展開，我們可以將表示為：

其中是可學習引數，(I) 根據和透過定積分計算，(II) 和 (III) 是矩陣運算的等價形式，[·||·] 和 [·, ·] 分別表示沿第一維度和第二維度的連線。

因此，可以表示為：

其中表示左側函式作用於右側輸入x，即。

然而，我們發現直接堆疊會導致模型的主要引數集中於學習角頻率，從而忽略了傅立葉係數和的學習，如下所示：

其中定義為用於近似角頻率，用於近似傅立葉係數。

因此，擬合傅立葉係數的能力與的深度無關，這是一個不理想的結果。

為了應對這一問題，研究團隊根據以下原則設計了FAN：

1. FAN 表示傅立葉係數的能力應與其深度正相關；

2. 任何隱藏層的輸出都可以通過後續層使用傅立葉級數來建模週期性。

第一個原則透過利用FAN的深度增強了其週期性建模的表現力，而第二個原則確保FAN中間層的特徵可用於執行週期性建模。

假設我們將解耦為：

其中，

為了滿足這兩個原則，FAN的中間層輸入需要同時使用和而不是依次應用它們。

最終，FAN 基於此設計，其FAN層定義如下：

其中是可學習引數，表示啟用函式。

整個FAN定義為FAN Layer的堆疊：

其中，

FAN的效能表現

週期建模

圖3 FAN在週期性建模中的表現與 MLP、KAN 和 Transformer 相比，其中綠線表示訓練資料域內的測試資料，而藍線表示訓練資料域外的測試資料

圖3展示了FAN和其他模型在週期性建模中的表現。結果表明，現有的神經網路（包括 MLP、KAN 和 Transformers）在建模週期性方面表現出明顯的不足。儘管它們試圖擬合這些週期函式，但其內在能力限制了它們在大範圍週期性上的效能表現。

相比之下，FAN在所有這些週期性建模任務中都明顯優於基線。更值得一提的是，FAN在訓練資料域內和域外的測試資料上都表現得非常出色，表明它能夠真正理解週期性的深刻原理並對其進行精準建模，而不僅僅是記住訓練資料。

圖4 不同模型在學習複雜週期函式任務上的訓練和測試損失比較

研究團隊還分析了不同模型在學習複雜週期函式任務上的訓練過程，如圖4所示，結果如下：

1. FAN在收斂速度和最終效果方面都遠遠超過其他模型；

2. 與FAN相比，FAN (Gated) 通常可以實現更快的收斂，但最終效能仍然相當；

3. 隨著訓練輪數的增加，雖然其他模型的訓練損失變得穩定或逐漸減少，但它們的建模可能與測試資料的分佈有很大差異，導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉週期性方面的缺陷。

符號公式表示

圖5 不同模型在符號公式表示任務中不同引數量的表現

從不同模型應用於數學和物理學中四個常見函式的表現中可以觀察到，雖然 KAN 在引數數量較少時能與FAN相媲美，但隨著引數數量的增加，其效能會顯著下降。

相反，隨著引數數量的增加，FAN擬合這些函式始終優於其他基線，包括 MLP、KAN 和 Transformer，儘管這些函式中的許多隻是部分週期性的或完全非週期性的。

這些結果表明，FAN不僅增強了對週期性的建模能力，同時也沒有損害擬合非週期性函式的能力。

時間序列預測

如表2 所示，研究團隊在四個公共資料集上比較了結合FAN的Transformer 和其他序列模型在時間序列預測任務上的表現。在大多數情況下，與 LSTM、Mamba 和標準 Transformer 相比，結合FAN和FAN（Gated）的Transformer 在這些任務上取得了最佳效能。

它們相對於標準 Transformer 的改進是顯著的，平均相對改進範圍為14.3%-15.0%的 MSE和7.6%-7.9%的MAE。

這些結果表明，在神經網路中加入顯式週期模式編碼可以提高實際應用中的時間序列預測效能。

語言建模

探究者報告了不同序列模型在四種情緒分析資料集上的效能比較，如表3所示。

可以發現，結合FAN和FAN（Gated）的Transformer與標準 Transformer 和其他序列模型（例如 LSTM 和 Mamba）相比表現出明顯優越的效能，尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 資料集上的零樣本跨領域表現。

結合FAN的 Transformer 在損失和準確度方面分別實現了最14.65%和8.50%的相對改進，同時將引數數量減少了約 14.16M。結果表明週期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。

FAN的表達能力和應用範圍

FAN在理論上具有與MLP相同的表達能力，因為它也遵循通用近似定理，這確保了其函式近似能力。不同的是，FAN透過明確納入週期性，引入了重要的功能增強，這是傳統MLP所不具備的。

FAN的這一設計，不僅全面繼承了MLP的既有優勢，還增強了其捕獲資料週期性特徵的能力。因此，FAN可以作為MLP的有力替代品。

當然，FAN的實用性不僅限於明確需要週期性建模的任務，在更廣泛的應用中也展現出強大的適用性。研究團隊透過一系列現實世界任務的實驗證明，如符號公式表示、時間序列預測和語言建模等，FAN的表現明顯優於MLP和其他基線模型。

事實上，許多看似與週期性無直接關聯的機器學習任務，如數學運算和邏輯推理，實際上也可能隱藏著週期性。

如果神經網路缺乏針對週期性特徵進行建模的能力，則可能會損害其學習效率。

從更深層次的角度來看，週期性不僅僅是一種資料特徵，還反映了一種規律或知識，即允許抽象的規則和原理在不同上下文之間轉移和重用。

總結來看，FAN與MLP相比，不僅增強了週期性建模能力，且引數量和計算量更少，有望成為基礎模型的關鍵組成部分。

未來，北大研究團隊將進一步擴大FAN的應用範圍，增強其作為基礎模型元件的表現，持續推動基礎模型的技術進步與創新發展。

參考資料：

https://arxiv.org/pdf/2410.02675.pdf