關鍵詞:深度神經網路,統計物理,機器學習可解釋性
論文題目:A statistical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit 論文來源:Nature Machine Intelligence 論文地址:https://www.nature.com/articles/s42256-023-00767-6 斑圖地址:https://pattern.swarma.org/paper/946de568-9df9-11ee-bc79-0242ac17000e
在計算技術進步的推動以及數十年研究的鋪墊下,深度學習的發展超過了研究者為之構建堅實理論基礎的解釋能力。多個研究團隊長期努力在基礎層面上填補我們理解深度學習的空白。統計物理在這方面取得了深遠的成果,並且仍然是一個新的視角和突破的源泉。
儘管深度神經網路在實踐中取得了成功,但目前缺乏一個全面的理論框架,可以從訓練資料的知識中預測實際相關的分數,如測試準確度。在無限寬度的極限下,每個隱藏層中的單位數(其中=1,…,L,其中L為網路的深度)遠遠超過訓練示例數P,因此會出現巨大的簡化。然而,這種理想化與深度學習實踐的現實明顯不符。該研究使用統計力學的工具集來克服這些限制,並推匯出完全連線的深度神經結構的近似配分函式,它編碼了有關訓練模型的資訊。該計算在熱力學極限下進行,其中和P都很大,它們的比率則是有限的。這一進展使我們獲得:(1)一個針對具有有限α1的單隱藏層網路的迴歸任務相關的泛化誤差的閉合公式;(2)深度架構的配分函式的近似表示式(透過一個依賴有限數量序參量的有效作用),以及(3)深度神經網路在比例漸近極限下與學生t過程(Student’s t-processes)之間的聯絡。
圖1. 1HL網路的學習曲線。透過方程進行有限寬度1HL(one-hidden-layer)結構的泛化誤差的可測試預測。a,基於Erf啟用函式的1HL架構的學習曲線,測試誤差隨隱藏層尺寸N1變化。在不同訓練集大小P上進行實驗測試損失(帶有誤差條表示一個標準差)與從方程1計算得出的理論進行比較(實線)。b、c,最後一層的高斯先驗λ1的不同值下的測試誤差隨N1的變化曲線。其中,誤差條在點內,虛線用於引導觀察(圖2、3同)。網路在來自CIFAR10資料集的P=3,000個示例(b)和MNIST的P=500個示例(c)上進行訓練。檢查了理論在零溫度下的兩個定性預測:(1)當λ1增加時,泛化損失應該對任何N1都減小;(2)在大λ1極限下,學習曲線對N1的依賴性消失,是因為此時偏置是常數。
圖2 深度網路(L>1)的實驗。a,d,採用ReLU啟用函式的接近無限寬度和小α(α=0.1)情況下訓練於CIFAR10和MNIST上的深度為L的LHL神經網路的測試損失,其中P=100(a對應CIFAR10結果,d對應MNIST結果)。有限寬度的網路只能在SL<1(陰影區域,即只能在MNIST任務和深度L<3。其中,可觀測標量。)時優於無限寬度的預測。b,e,視覺化網路不斷迭代後的無限寬度NNGP核在不同層的條目(b對應CIFAR10,e對應MNIST)。ReLU NNGP核在不斷迭代後趨於零,導致了特徵值幾乎消失,使得SL最終總是大於1。c,f,基於P=1,000個示例訓練的4HL網路的測試損失,不同正則化強度的情況(其中=N=1000;c對應CIFAR10,f對應MNIST)。儘管增加最後一層高斯先驗的大小仍然改善了所有N的泛化效能,但不再像1HL網路那樣清晰,在大λL情況下,曲線隨N變化不再是一個常數。
圖3. 隨著深度L的增加,隨機資料和序參量的普遍行為。a,不同1HL架構在完全隨機任務上隨α1變化的訓練損失(即輸入 ,其中N0 = 5和標量輸出y都是從均值為零、方差為單位的正態分佈中取樣獨立同分布的隨機變數)。 其中,誤差條在資料點內。 目前本文理論只描述了訓練誤差恰好為零的過引數化極限,而無法解釋這種普遍現象。 b,採用ReLU啟用函式在各向同性網路情況下,對於不同的深度L對解(在零溫度極限下的鞍點方程的精確解)進行數值評估。 隨著L的增長(L≈30),對所有的α來說,序參量迅速趨近於1。 這表明在漸進區域中,DNNs也會在在P,N之後深度L趨於無窮時收斂到一個核心限制
編譯|餘孟君
神經網路的統計力學課程
課程詳情:
1.
2.
3.
4.
5.
6.