12.2
知識分子
The Intellectual
圖源:pixabay
撰文 |吳思
這篇短文不是要討論今年諾貝爾物理學獎是否不恰當地授予了人工智慧專家,而是要澄清授獎物件是否出現了重大遺漏。
John Hopfield和Geoffrey Hinton兩位教授獲得了今年的諾貝爾物理學獎,其中Hopfield教授的獲獎原因是因為發展了著名的Hopfield吸引子網路模型。由於我長期在做有點冷門的吸引子網路的理論研究(見公眾號文章【學術思想】連續吸引子神經網路:神經資訊表達的正則化網路模型),因此不少同事祝賀我,有種終於“苦盡甘來”,可以“與榮有焉”了的感覺。但我內心卻是五味雜陳,因為我深知道Hopfield模型背後真實的故事。有朋友鼓勵我說,為計算神經科學領域外的讀者以及年輕學者計,我應該寫下這段公案,給歷史留一段記錄。
簡單說就是,日本著名科學家Shun-ichi Amari(甘利俊一)教授在1972年就已經提出了Hopfield教授在1982年發表的Hopfield模型,前者比後者整整早了十年。兩個數學模型幾乎一模一樣,而且Amari教授的文章還做了更深入細緻的數學分析。圖1簡單對比了兩個模型的最關鍵相同之處,包括神經元的閾值動力學(threshold dynamics)和神經元連線的Hebbian 學習律。基於該數學模型,兩篇文章都分析了網路動力學的穩定狀態,即吸引子,並由此引申到了大腦的聯想式記憶。讀者可以仔細對比Amari1972年[1]和Hopfield 1982年[2]的文章。有科研經驗的讀者都知道,在模型如此相似的情況下,有了Amari 1972年的文章,Hopfield 1982年的文章其實很難能發表在重要雜誌上了。當然在當時資訊條件下,有可能Hopfield教授並不知道Amari教授的工作。
圖1:Amari原始模型和Hopfield原始模型的對比。兩者的數學形式幾乎是一模一樣的,都採用了神經元的閾值動力學和神經元之間連線的Hebbian學習律。
在計算神經科學及相關領域,Amari教授比Hopfield教授早十年提出Hopfield模型並不是一個鮮為人知的秘密,而是一個很多人都知道的事實。計算神經科學領域的著名學者Haim Sompolinsky教授(2023年Brain Prize大獎的獲得者)在一篇文章中曾評論到:“雖然Amari更早提出了一樣的模型,但因為Hopfield貢獻很大,所以我們叫它Hopfield模型“,英文參見[3]。計算神經科學領域另一位已過世的著名學者Daniel Amit(《Modelling Brain Function: The World of Attractor Neural Networks》書的作者)曾經當面給Amari教授道歉,表示這是學術界的一個錯誤,該模型應該叫Amari-Hopfield模型,並贈予了Amari教授一條紅色領帶作為歉意。
誠如Amit教授所言,在當年資訊遠遠落後於今天的時代,即便是Hopfield教授獨立發展了該模型,出於科學慣例,這個模型也應該叫Amari-Hopfield模型更合適。但讓人費解的是,諾貝爾獎評審委員會在明知Amari教授早期工作的情況下(諾獎的科學背景介紹還列出了Amari1972年的文章),依然忽視了Amari教授的貢獻,實在是讓人難以理解。
需要申明的是,我介紹這段歷史並不全因為我是Amari教授的弟子,有為老師發聲之嫌。其實在外網的一些論壇上,對此爭論更激烈。著名的德國科學家Jurgen Schmidhurber教授(LSTM模型的發明人)就在一個有悠久歷史的郵件群connectionist裡為Amari教授的不公發聲。摘錄部分如下:
圖2:Schmidhurber教授對Amari模型早於Hopfield工作10年的評論。
可能有讀者知道,Schmidhurber教授在其它場合也為另一段公案發聲,其涉及到了Amari教授在人工神經網路最基礎的訓練演算法-反傳演算法(BackProp)上的重要貢獻,我這裡也介紹一下。簡單說就是,Amari教授在1967年就提出了stochastic gradient descent(SGD)(但由於當時計算機算力受限,只在淺層神經網路上做了演示)[4],比Hinton教授等人提出的有相似思想的BackProp(1986)[5]早了19年。當然我本人特別崇敬Hinton教授,尤其佩服他鍥而不捨地把基於深度學習的人工智慧技術推廣到了今天的高度,但在BackProp的優先權上還是應該一碼歸一碼。有好事者在connectionist群裡釋出了一張Hinton教授在1997年ICNN會議上介紹BackProp的照片,演講題目是“What’s wrong with Backprop?”, 其中Hinton教授本人寫下了“Amari thought it first”(見下)。
圖3:Hinton教授在ICNN1997會議的演講稿,其中寫下了Amari第一個想到BackProp。
在諾貝爾物理學釋出之後,Amari教授很快就在日本理化學所的官網上發表了公開宣告(見圖4),其間隻字未提自己的不公,反而真誠地祝賀了兩位獲獎者,體現了Amari教授一貫淡泊名利、與世無爭的風格。但作為知情者,我認為不能因為Amari教授的高風亮節,我們就預設這種行為是無所謂的,其後果只會破壞科學共同體賴以健康發展的基石。
Amari教授一生在科學上建樹太多,有興趣的讀者可以參見Amari教授回顧其在計算神經科學領域半個世紀工作的文章[3]。除了上面提到的吸引子網路、BackProp,還有一項在我看來理論上更漂亮的工作是資訊幾何(information geometry)。該工作用微分幾何方法分析了資料驅動的模型學習的本質,是對模型學習機理最深刻的認識。因此,我雖心有悵然,但我堅信,沒有諾獎或圖靈獎的加持,Amari教授在科學上的巨大貢獻也一樣流芳百世!
圖4:Amari教授在諾獎結果公佈後,很快就在日本理化學研究所官網上發表的公開宣告(中文翻譯稿)。
ZHISHI
後記
最後我也向感興趣的讀者簡單介紹一下吸引子網路的後續發展。在AI領域,Amari-Hopfield模型近年來被推廣為了modern Hopfield模型[6]。在神經科學領域,Amari-Hopfield模型逐漸被其它生物學更合理的吸引子模型代替。當前最熱的吸引子網路模型是連續吸引子網路(CANN)(參見微信公眾號介紹文章【學術思想】連續吸引子神經網路:神經資訊表達的正則化網路模型)。特別值得指出的是,Amari教授在1977年就發表一篇純粹基於數學性質考慮的CANN模型[7],遠遠走在了實驗證據的前面[8-9],也是領域內的一篇經典工作。作者在Amari教授實驗室做博士後期間,和Amari教授一起發展了一個理論可解的CANN模型[10],並在隨後的二十多年裡圍繞該模型開展研究。近年來,作者課題組進一步推廣了該模型,在動力學方程中引入了適應性反應(adaptation),以解決吸引子網路面臨的一個根本性難題:一方面,吸引子使得大腦可以穩定表徵資訊;但另一方面,其也不可避免地帶來了副作用,即一旦神經系統進入了一個吸引子狀態,就很難脫離該狀態,使得大腦難以實現資訊的快速迭代或搜尋。透過在吸引子網路中引入時程相對較慢的適應性動力學(其可以被神經系統中廣泛存在的副反饋作用實現),就能使神經系統既可以穩定地表徵信息,同時又能快速搜尋或迭代資訊。我們系統分析該模型的計算性質[11-12],並用該模型成功瞭解釋大量的神經生物學現象[13-14]。
本文作者吳思系北京大學心理與認知科學學院教授,麥戈文腦科學所常務副所長
參考文獻:(上下滑動可瀏覽)
[1]Amari, S. (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements. IEEE Transactions on Computers, C-21(11), 1197–1206.
[2]Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America, 79, 2554–2558.
[3]Amari, S. (2013). Dreaming of mathematical neuroscience for half a century. Neural Networks, 37, 48–51.
[4]Amari, S. (1967). Theory of adaptive pattern classifiers. IEEE Transactions, EC-16, 299–307.
[5]Rumelhart, D., McClelland, J., & Hinton, J. (1986). Learning internal representations by error propagation. In D. E. Rumelhart, & J. L. McClelland (Eds.), Parallel distributed processing: explorations in the microstructure of cognition, vol. 1. MIT Press.
[6]Krotov, Dmitry, and J.J. Hopfield (2016). Dense associative memory for pattern recognition. NeurIPS.
[7]Amari, S. (1977). Neural theory of association and concept-formation. Biological Cybernetics, 26, 175–185.
[8]Kim, S., Rouault, H., Druckmann, S. & Vivek Jayaraman (2017) Ring attractor dynamics in the Drosophila central brain. Science 356, 849–853.
[9]Gardner, R., Hermansen, E., Pachitariu, M., Burak, Y., Baas, N., Dunn, B., May-Britt Moser, & Moser, E. (2022). Toroidal topology of population activity in grid cells. Nature 602, 123-128.
[10]Wu, S., Amari, S. & Nakahara. H. (2002). Population Coding and Decoding in a Neural Field: A Computational Study. Neural Computation, v14, no.5, p.999-1026.
[11]Dong, X.#, Chu, T.#, Huang, T., Ji, Z.*, & Wu S* (2021). Noisy Adaptation Generates Levy Flights in Attractor Neural Networks. NeurIPS.
[12]Dong, X., Ji, Z., Chu, T., Huang, T., Zhang, W., Wu S* (2022). Adaptation Accelerating Sampling-based Bayesian Inference in Attractor Neural Networks. NeurIPS.
[13]Chu, T.#, Ji, Z.#, Zuo, J., Mi, Y., Zhang, W., Huang, T., ... & Wu, S.* (2023). Firing rate adaptation affords place cell theta sweeps, phase precession and procession. eLife.
[14]Ji, Z. L. #, Chu, T.#, Wu, S.* & Burgess, N.* (2024). A systems model of alternating theta sweepsvia firing rate adaptation. Current Biology.