時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

被忽略的起點?Karpathy揭秘注意力論文被Transformer光芒掩蓋

2024-12-05 08:29:10

機器之心報道

編輯:Panda

幾個小時前,著名 AI 研究者、OpenAI 創始成員之一 Andrej Karpathy 釋出了一篇備受關注的長推文,其中分享了注意力機制背後一些或許少有人知的故事。

其中最值得注意的一個故事是真正首次提出注意力機制的論文其實是 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的《Neural Machine Translation by Jointly Learning to Align and Translate》,這比《Attention is All you Need》還早 3 年,但很顯然,這篇論文並沒有收穫後者那般的關注。

Karpathy 長推文的不完整截圖

實際上,這個故事來自 Dzmitry Bahdanau 發給 Karpathy 的一封郵件。Bahdanau 是 ServiceNow Research 的研究科學家和研究負責人以及麥吉爾大學兼職教授。

他在發給 Karpathy 的這封郵件中分享了自己發現注意力機制的旅程以及 Attention 這個術語的由來——其實來自 Yoshua Bengio。此外,他也提到了 Alex Graves 的 NMT 論文和 Jason Weston 的記憶網路(Memory Networks)論文各自獨立發現類似機制的故事。

Karpathy 推文釋出後反響熱烈,短時間內就已有超過 20 萬閱讀量,很多讀者都被這個注意力背後的故事吸引。

有讀者在看過這個故事後發出感嘆:2013-2017 年間的深度學習宇宙中有很多隱藏的英雄。

也有人分享自己對注意力機制的看法。

Hyperbolic Labs 創始人和 CTO Yuchen Jin 更是打趣說《Attention Is All You Need》的另一項重要貢獻是將後面的 AI 論文標題帶歪了:「吸引注意力的標題才是 All You Need」。

注意力機制的背後故事

下面我們就來看看 Karpathy 的推文究竟說了什麼:

「attention」運算元——也就是提出了 Transformer 的《Attention is All you Need》中的那個注意力,背後的(真實)開發和靈感故事。來自大約 2 年前與作者 @DBahdanau 的個人電子郵件通訊,在此釋出(經許可)。此前幾天,網上流傳著一些關於其開發過程的假新聞。

Attention 是一種出色的(資料依賴型)加權平均運算。它是一種形式的全域性池化、歸約、通訊。它是一種從多個節點(token、圖塊等)聚合相關資訊的方法。它富有表現力、功能強大、具有足夠的並行性,並且可以高效最佳化。甚至多層感知器(MLP)實際上也可以大致重寫為資料獨立型權重上的 Attention(第一層權重是查詢,第二層權重是值,鍵就是輸入,softmax 變為元素級,刪除了規範化)。簡單來說,注意力非常棒,是神經網路架構設計中的重大突破。

《Attention is All You Need》獲得的…… 呃…… 注意力差不多是 3 年前真正提出 Attention 的論文的 100 倍,即 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的論文《Neural Machine Translation by Jointly Learning to Align and Translate》。在我看來,這一直有點出人意料。顧名思義,《Attention is All You Need》的核心貢獻是提出:Transformer 神經網路就是刪除注意力之外的一切,然後基本上就是將其堆疊在帶有 MLP(根據上述內容,這也可以大致被視為注意力)的 ResNet 中。但我確實認為這篇 Transformer 論文有自己獨特的價值,因為它一次性添加了其它許多令人驚歎的想法,包括位置編碼、縮放式注意力、多頭注意力、各向同性的簡單設計等。在我看來,直到今天(大約 7 年過去了),Transformer 基本上還保持著 2017 年的形式,只有相對較少的微小修改,也許除了使用更好的位置編碼方案(RoPE 等)。

總之,我先把完整郵件貼在下面,其中也暗示了這個運算一開始被稱為 Attention 的原因 —— 它源自對源句子中詞的關注(attending)並同時以順序方式輸出翻譯結果的詞,並且之後 Yoshua Bengio 在 RNNSearch 中將其引入成了一個術語(感謝上帝?:D)。同樣有趣的是,該設計的靈感來自人類的認知過程/策略,即按順序來回關注一些資料。最後,從發展進步的本質來看,這個故事相當有趣——類似的想法和表述「早就已經在空氣中迴盪」,特別要提到當時 Alex Graves(NMT)和 Jason Weston(記憶網路)的工作。

謝謝你的故事 @DBahdanau !

之後,Karpathy 還做了一些補充:ChatGPT 以及絕大多數現代 AI 模型都是巨型 Transformer。「所以LLM 的核心神奇之處來自於反覆應用注意力,一遍又一遍地關注輸入的 token,以預測下一個 token 是什麼。」

Dzmitry Bahdanau 的原始郵件內容

Karpathy 也一併分享了 Dzmitry Bahdanau 的原始郵件內容:

嗨,Andrej,

很高興告訴你 8 年前發生的故事!

我在雅各布大學 Herbert Jaeger 的指導下完成碩士課程的第一年後,作為實習生來到了 Yoshua 的實驗室。

我告訴 Yoshua 我很樂意做任何事情。Yoshua 讓我參與機器翻譯專案,與 Kyunghyun Cho 和團隊一起工作。我當時非常懷疑將詞序列塞入向量的想法。但我也非常想獲得博士學位。所以我擼起袖子,開始做我擅長的事情——編寫程式碼、修復錯誤等等。在某個時候,我表現得很瞭解我做的東西了,Yoshua 邀請我攻讀博士學位(2014 年是一個很好的時機,表現得很瞭解就已經足夠了——美好的舊時光!)。我非常高興,我認為可以開始享受樂趣併發揮創造力了。

所以我開始思考如何避免編碼器和解碼器 RNN 之間的瓶頸。我的第一個想法是構建一個帶有兩個「游標」的模型,一個在源序列中移動(由一個 BiRNN 編碼),另一個在目標序列中移動。使用動態規劃(dynamic programming)可以將游標軌跡邊緣化。KyungHyun Cho 認為這相當於 Alex Graves 的 RNN Transducer 模型。之後,我可能還讀了 Graves 的手寫識別論文。不過,這種方法看起來不適合機器翻譯。

在我實習的剩餘 5 周內,上述使用游標的方法很難實現。所以我嘗試了一種更簡單的方法——兩個游標同時同步移動(實際上是硬編碼的對角注意力)。這種方法有點效果,但方法不夠優雅。

所以有一天,我想到如果能讓解碼器 RNN 學會在源序列中搜索放置游標的位置就好了。這多少受到我中學時學習英語時的翻譯練習的啟發。翻譯時,你的目光會在源序列和目標序列之間來回移動。我將這種軟性搜尋表示為 softmax,然後對 BiRNN 狀態進行加權平均。它的效果很好,從第一次嘗試,到後來振奮人心。我將這個架構稱為 RNNSearch,我們急於發表一篇 arXiv 論文,因為我們知道谷歌的 Ilya 和同事領先於我們,他們有巨大的 8 GPU LSTM 模型(而 RNN Search 仍在 1 GPU 上執行)。

後來發現,這個名字並不好。直到最後幾次過論文時,Yoshua 才將更好的名字(attention)新增到論文結論中。

一個半月後,我們看到了 Alex Graves 的NMT論文。這確實是完全相同的想法,儘管他提出它的動機完全不同。在我們的情況下,是因為需要而產生了這個發明。在他的情況下,我想應該是將神經和符號 AI 連線起來的雄心吧?Jason Weston 及其同事的記憶網路論文也採用了類似的機制。

我沒有遠見地想到注意力可以在較低的層級使用,以作為表徵學習的核心運算。但是當我看到 Transformer 論文時,我立即向實驗室同事斷言 RNN 已死。

回到你最初的問題:在蒙特利爾 Yoshua 的實驗室發明的「可微分和資料依賴加權平均」獨立於神經圖靈機、記憶網路以及 90 年代(甚至 70 年代)的一些相關認知科學論文。這是 Yoshua 領導推動實驗室進行雄心勃勃的研究的結果,KyungHyun Cho 在執行一個大型機器翻譯專案方面擁有高超的技能,該專案由初級博士生和實習生組成;最後,我自己的創造力和編碼技能在多年的競爭性程式設計中得到了磨練。但我認為這個想法很快就會被發現。就算我、Alex Graves 和這個故事中的其他角色當時沒有研究深度學習也是如此,注意力就是深度學習中實現靈活空間連線的自然方式。等待 GPU 足夠快,讓人們有動力認真對待深度學習研究,這是一個顯而易見的想法。自從我意識到這一點以來,我在 AI 領域的抱負就是啟動像機器翻譯專案這樣的出色的應用專案。相比於那些研究所謂的「真正」AI 的花哨理論,良好的研發工作可以為基礎技術的進步做出更大貢獻。

就這些!我非常想更多瞭解關於您的教育 AI 專案的資訊(我從 Harm de Vries 那裡聽到了一些傳言;))。

祝好,

Dima

相關論文

最後,下面梳理了前面提及的相關論文,以幫助感興趣的讀者做進一步的技術探索。

Neural Machine Translation by Jointly Learning to Align and Translate,未得到應有關注的注意力論文

作者:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

連結:https://arxiv.org/abs/1409.0473

Attention is All You Need,著名的 Transformer 論文

作者:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

連結:https://arxiv.org/abs/1706.03762

Neural Turing Machines,其中幾乎同時提出了類似的 soft pooling 運算

作者:Alex Graves, Greg Wayne, Ivo Danihelka

連結:https://arxiv.org/abs/1410.5401

Generating Sequences With Recurrent Neural Networks,研究了使用 LTSM 生成具有長程結構的複雜序列,很有開創性

作者:Alex Graves

連結:https://arxiv.org/abs/1308.0850

Memory Networks,記憶網路

作者:Jason Weston, Sumit Chopra, Antoine Bordes

連結:https://arxiv.org/abs/1410.3916

Sequence to Sequence Learning with Neural Networks,文中提到的當時在谷歌的 Ilya 等人的論文

作者:Ilya Sutskever, Oriol Vinyals, Quoc V. Le

連結:https://arxiv.org/abs/1409.3215

https://x.com/karpathy/status/1864023344435380613

https://x.com/karpathy/status/1864030016457375916

熱門資訊
  • 2024十大科學突破:第一種固氮真核生物,揭示細胞器進化之謎 | 2024-12-14 05:28:52
  • 谷歌量子晶片重大突破!5分鐘搞定最快超級計算機10億億億年任務 | 2024-12-14 05:30:49
  • 知名半導體專家魏少軍:中國晶片設計業對“內卷”深惡痛絕 | 2024-12-14 05:40:28
  • 天津科技大學司傳領/朱禮玉/徐婷、農業農村部環保所申鋒NML:質子傳導型MOF的精準工程化構建 | 2024-12-14 05:48:34
  • OPPO 跨裝置音畫同步方法專利申請,提高跨裝置音畫同步的效率 | 2024-12-14 06:43:16
  • 科技 | 新突破!中國電信釋出“天衍-504”超導量子計算機! | 2024-12-14 07:25:11
  • 新老矽谷巨頭們忙著向特朗普“獻金”效忠 | 2024-12-14 07:33:28
  • 倒計時1小時!2024網易未來大會四大亮點揭曉 | 2024-12-14 07:38:59
  • 祝賀!何祖華院士 | 2024-12-14 07:42:35
  • 樊春海:生物製造未來將引領第四次的工業革命 | 2024-12-14 07:42:38
  • OpenAI:馬斯克2017年就想要我們轉為營利性組織 | 2024-12-14 07:45:16
  • 專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識別” | 2024-12-14 07:45:26
  • 小米股價今年翻番,電動SUV或成未來增長關鍵 | 2024-12-14 07:56:46
  • 車企出事了,它的車子還能搶救一下嗎? | 2024-12-14 07:58:25
  • 新質資訊科技申請基於單導模組的網路資料遠端傳輸專利,提高涉密資訊系統間資料傳輸安全性 | 2024-12-14 08:21:55
  • 新突破!中南林業科技大學首次牽頭承擔國家自然科學基金重大專案 | 2024-12-14 08:26:38
  • Adv Sci:李亞平/張鵬程團隊開發IL15-奈米囊泡,遞送載阿黴素的鐵蛋白,改善癌症免疫化療 | 2024-12-14 08:44:02
  • 國產大飛機 C919 首次搭載旅客飛抵海南,通航點增至 10 座城市 | 2024-12-14 09:09:17
  • 聯想 Legion Go S 掌機外觀渲染曝光,部分版本預裝 SteamOS | 2024-12-14 09:20:13
  • 中國又反超?幹細胞正成為中日競賽的新戰場,院士:已開始領先 | 2024-12-14 09:21:46
  • 《自然·醫學》:基因治療、AI篩癌、家庭菜園、手機遊戲……!2025年最值得期待的11項臨床試驗出爐 | 2024-12-14 09:21:49
  • 英特爾Arc B580"Battlemage"GPU開始零售 起價249美元瞬間斷貨 | 2024-12-14 09:30:35
  • 新一代 HDMI 規格將於 2025 CES 展會前公佈 | 2024-12-14 09:30:36
  • 三星推出搭載Lunar Lake的Galaxy Book 5 Pro 號稱電池續航長達25小時 | 2024-12-14 09:30:38
  • Intel 已釋出支援 Arc B 系列顯示卡的新顯示卡驅動程式 | 2024-12-14 09:30:40
  • 英特爾釋出 6325/6252 WHQL 驅動:引入 IGS 管理工具等 | 2024-12-14 09:40:40
  • Mol Cell丨ROS調控線粒體蛋白輸入,維持細胞穩態 | 2024-12-14 09:49:45
  • Cancer Cell:曹雪濤團隊利用CRISPR篩選,發現克服乳腺癌免疫治療耐藥新靶點 | 2024-12-14 10:12:18
  • 2600萬買“空中勞斯萊斯”,燒15億拿適航證,低空經濟何時“起飛” | 2024-12-14 10:28:19
  • AI企業高管預測2025年行業主題:智慧體和盈利能力 | 2024-12-14 10:28:23
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們