深度學習的成功已經無需多言。一直以來,研究者們都嘗試從數學角度去解釋神經網路的有效性。然而,由於網路的結構可以看作是高維線性變換和逐元素的非線性變換(如 ReLU 啟用函式)之間的多重複合,因此實際上並沒有很好的數學工具去破解這樣複雜的結構。
所以,對於神經網路的理論研究往往侷限在諸如網路的逼近、最佳化、泛化以及其他觀測到的現象等方面。
如果拋開理論的限制,一個無可爭議的事實是:更寬、更深的網路總是有著更好的效果。小到幾層的全連線網路、大到萬億規模的大模型,都一致性地保持著這樣的規律。
那麼,如何從理論上理解這樣的事實?啟用函式又在其中扮演什麼樣的角色?
相比於寬度,對深度的研究更加具有挑戰性,因為層數的增加還伴隨著非線性函式的不斷複合。
一個典型的問題是,當模型寬度固定的時候,增加模型的深度是否比淺層的模型擬合更多的資料點?
中國科學院應用數學所博士畢業生蓋闊在讀博期間完成一個生成網路演算法設計的工作和一個現象驅動的可解釋性工作之後,希望探索關於人工智慧的為題。
因為自己是數學背景出身,所以就想做一些理論的結果。但在當時神經網路理論研究的框架已經很清晰,研究剩下的空白難題則都非常有難度。
“以至於我讀了很久的已有文獻,也沒能找到原創性的切入點。”他說。
經歷一系列不成功的嘗試之後,蓋闊又回到了最初的一個直覺的想法:因為網路的寬度更容易分析,比如對於一個簡單的線性方程
來說,當增加 W 的尺寸之後,能求解的關於 X 和 Y 之間的方程個數也會線性增加。
如能把深度等效為寬度,將兩層網路等效為一個單層的大矩陣,那麼就可以透過消元法去找到這個大矩陣方程的解,也就對應著兩層神經網路的解,這也說明增加網路深度就像增加寬度一樣有效。
但是,對於逐元素非線性啟用函式與矩陣乘法之間的複合幾乎沒有什麼工具來幫助計算,也不具備很好的最佳化性質。
例如,對於方程
假設
都是已知的,如果
是 ReLU 或者 Sigmoid 函式,那麼求解這個方程是很困難的。
因為不是凸問題,所以即便使用最佳化後的方法也無法保證一定會求到解答。但是,求解這樣一個方程卻是他在課題構想中的重要一步。
雖然沒能進一步推進,不過問題的具體形式已經相對清晰了。蓋闊表示如果將啟用函式的範圍拓寬,這樣的方程就可以找到解(例如把啟用函式換成矩陣指數)。
這樣做的好處是,當兩個矩陣是可交換的時候,經過矩陣指數函式啟用之後,所得到的矩陣也是可交換的。
為了使特定矩陣具有可交換的性質,就需要額外增加一層網路引數。有了可交換的性質,就很容易求解上述方程,那麼就可以在等效的大矩陣裡做消元,找到三層函式的一組解。
就這樣,他就在這種特殊的啟用函式下實現了最初的設想。
具體來說,蓋闊和博士導師張世華研究員討論之後認為:如能找到一個簡單直接的例子,能夠說明在有啟用函式的情況下,網路加深一層後能夠擬合更多的資料點,那麼這樣的結果可能更有意義。
為此他們將網路引數擴充套件到複數域,並且將逐元素的啟用函式替換為矩陣指數啟用函式,從而可以對三層的神經網路:
找到一組解析解使得:
其中,所有的矩陣均為 d 維的方陣,這就說明了網路深度的有效性,因為假如只有一層網路的話就只能滿足一組
總的來說,他們在理論上找到了一個解釋性較好的例子,可以幫助人們更好地理解神經網路深度以及非線性啟用函式的有效性。
實驗中他們觀察到,雖然本次理論結果是針對矩陣指數啟用函式而言的,但對於逐元素的 ReLU 或者 Sigmoid 啟用函式,也能在網路較寬時觀察到類似的最佳化結果,即兩層網路擬合數據點的能力大概是單層的二倍。而這可能會啟發其他研究者發現更加一般性的結論。
日前,相關論文以《矩陣指數啟用函式的三層網路的解析解》(ANALYTICAL SOLUTION OF A THREE-LAYER NETWORK WITH A MATRIX EXPONENTIAL ACTIVATION FUNCTION)為題發在arXiv[1]。
蓋闊表示:“非常感謝張世華老師的支援與鼓勵。當課題遲遲沒有進展的時候,張老師沒有就論文發表施加壓力,也沒有催促更換課題。”
“幸運的是,本來已經計劃和張老師討論放棄這個課題了,但在討論前一天又突然有了靈感,最終找到了解決的路徑。如果張老師沒有這樣多的耐心,可能我也最後等不來靈感出現。”他最後表示。
參考資料:
1.https://arxiv.org/pdf/2407.02540
排版:溪樹