11月15日訊息,2017年,的八位機器學習研究人員共同發表了一篇具有突破性意義的研究論文,題為《注意力就是你所需要的一切》(Attention Is All You Need)。這篇論文引入了Transformer AI架構,該架構如今已成為支撐幾乎所有主流生成式人工智慧模型的核心基礎。
Transformer架構透過使用神經網路,將被稱為“Token”的輸入資料塊編譯或轉換為所需的另一種輸出形式,從而成為推動現代人工智慧繁榮發展的關鍵要素之一。Transformer架構的多種變體被廣泛應用於各種模型,包括GPT-4(以及ChatGPT)等語言模型、執行谷歌NotebookLM和OpenAI高階語音模式的音訊生成模型、Sora等影片生成模型,以及Midjourney等影象生成模型。
在今年10月的TED AI大會上,被稱為“谷歌八子”之一的雅各布·烏斯克爾特(Jakob Uszkoreit)接受了媒體的採訪。在訪談中,他分享了Transformer的發展歷程、谷歌在大語言模型領域的早期探索,以及他目前在生物計算領域的新冒險。
烏斯克爾特在採訪中透露,儘管他和谷歌的團隊對Transformer技術的潛力寄予厚望,但他們並未完全預見到它在ChatGPT等產品中能夠發揮如此關鍵性的重要作用。
以下為專訪全文:
問:你對《注意力就是你所需要的一切》這篇論文的主要貢獻是什麼?
烏斯克爾特:論文的腳註中有詳細的闡述,但我的核心貢獻在於提出了一個觀點,即有可能利用注意機制,特別是自我注意,來取代當時序列轉導模型中佔據主導地位的遞迴機制(來自遞迴神經網路的遞迴機制)。這種替代方案能夠提升效率,因此也更具成效。
問:你知道你們團隊發表那篇論文後會發生什麼嗎?你是否預見到它將會創造出怎樣的產業?
烏斯克爾特:首先,我想強調的是,我們的工作並非孤立存在,而是站在了眾多前人研究的基礎上。這篇論文並非孤立的事件,而是我們團隊以及其他眾多研究者多年努力的結晶。因此,如果將後續的發展完全歸功於這篇論文,可能是一種人類傾向於講故事的視角,但這並不完全準確。
在那篇論文發表之前,我在谷歌的團隊已經對注意力模型進行了多年的研究。這是一條漫長且充滿挑戰的道路,涉及大量的研究工作,不僅限於我的團隊,還有許多其他研究者也在這一領域耕耘。我們對注意力模型寄予厚望,認為它能夠從技術層面推動整個領域的發展。但是,當我們談到它能否真正促進像ChatGPT這樣的產品誕生時,至少從表面上看,我們並沒有完全預見到這一點。我的意思是,即使在我們發表論文時,大語言模型及其展現出的能力已經讓我們感到震驚。
我們沒有將這些技術直接轉化為市場產品,部分原因可能是當時對於開發大規模(潛在投資達100億美元)的產品持保守態度。儘管我們看到了這些技術的潛力,但我們並不完全相信僅憑這些技術本身就能讓一款產品具備足夠的吸引力。至於我們是否對這項技術寄予厚望,答案是肯定的。
問:既然你們瞭解谷歌在研發大語言模型方面的工作,那麼當ChatGPT在公眾面前取得巨大成功時,你們團隊有何感想?是否會有“唉,他們做到了,而我們沒抓住機會”的遺憾?
烏斯克爾特:確實,當時我們有一種“這是完全有可能發生的”的感覺。但這種感覺並非“哦,真可惜,他們搶先了”之類的情緒。我更傾向於說“哇,這本來可以更早些實現的”。至於人們迅速接納並應用這些新技術的速度,我確實感到驚訝,那真是令人讚歎不已。
問:那時候你已經離開谷歌了,是嗎?
烏斯克爾特:是的,我已經離職了。從某種程度上講,你可以說,谷歌並非進行這類創新工作的理想場所,這是我決定離開的原因之一。我離開谷歌並非因為我不喜愛那裡,而是因為我認為我必須在其他地方去實現我的願景,那就是創辦Inceptive公司。
然而,我真正的動機並不僅僅是看到一個巨大的商業機會,而是一種道德上的責任感,去做一些在外部環境中能夠做得更好的事情,比如設計更有效的藥物,從而對人們的生活產生直接而積極的影響。
問:ChatGPT的有趣之處在於,我之前使用過GPT-3。因此,當ChatGPT出現時,對於熟悉這項技術的人來說,它並不算是一個巨大的驚喜。
烏斯克爾特:是的,你說得對。如果你之前使用過這類技術,你可以清晰地看到它的演進過程,並做出合理的推斷。當OpenAI與亞歷克·雷福德(Alec Radford)等人一起開發最早的GPT模型時,我們就已經討論過這些可能性,儘管我們當時並不在同一家公司。我確信,當時我們都能感受到那種興奮,但對於ChatGPT產品會受到如此廣泛且迅速的歡迎,這仍然是沒有人真正預料到的事情。
問:我當時的感覺就像是,“哦,這不過是GPT-3加上了一個聊天機器人的功能,能在對話迴圈中保持上下文。”我並沒有覺得這是一個突破性的時刻,儘管它確實很吸引人。
烏斯克爾特:突破性時刻可以有不同的形式。這確實不是一個技術層面的突破,但在這種能力水平下,這項技術展現出了極高的實用性,這無疑也可以稱之為突破。
同時,我們也需要意識到,使用者在使用我們建立的工具時,他們的創造性和使用方式的多樣性往往出乎我們的預料。我們可能無法預見到他們會有多麼善於利用這些工具,以及這些應用場景會有多麼廣泛。
很多時候,我們只能透過實踐來學習。這也是為什麼保持實驗態度和接受失敗的意願如此重要的原因。因為大多數情況下,嘗試都會失敗。但在某些情況下,它會成功,而且極少數情況下,它會像ChatGPT那樣取得巨大的成功。
問:這意味著需要承擔一定的風險。谷歌是不是缺乏承擔這樣的風險的意願?
烏斯克爾特:當時確實是這樣的。但如果你深入思考,回顧歷史,你會發現這其實是非常有趣的。以谷歌翻譯為例,它的經歷其實與ChatGPT有些相似。當我們首次推出谷歌翻譯的第一個版本時,它充其量只是一個在聚會上玩的玩笑。但在很短的時間內,我們就把它變成了一個真正有用的工具。在那個過程中,它有時輸出的內容簡直糟糕透頂,讓人尷尬不已。然而,谷歌還是堅持了下來,因為這是一個值得嘗試的正確方向。但那是發生在2008年、2009年、2010年左右的事情了。
問:你還記得AltaVista搜尋引擎推出的線上翻譯工具“巴別魚”(Babel Fish)嗎?
烏斯克爾特:當然。
問:當它首次亮相時,我和我哥哥經常被它吸引,我們會把文字在不同語言之間來回翻譯,因為這樣做會讓文字變得混亂而有趣。
烏斯克爾特:是的,那種翻譯結果往往會越來越離譜,越來越讓人啼笑皆非。
(注:在離開谷歌後,烏斯克爾特與他人共同創立了Inceptive公司,致力於將深度學習技術引入生物化學領域。該公司正在研發烏斯克爾特所謂的“生物軟體”,這是一種利用人工智慧編譯器將特定行為轉化為RNA序列的方法。當這些RNA序列被引入生物系統時,它們能夠執行預設的功能。)
問:你最近的工作重心是什麼?
烏斯克爾特:2021年時,我與人共同創立了Inceptive。我們的目標是利用深度學習和高通量生物化學實驗來設計真正可程式設計的、更高效的藥物。我們堅信,這只是我們“生物軟體”的第一步。
生物軟體在某種程度上與計算機軟體相似。你首先設定一些行為規範,然後利用一個編譯器將這些規範轉化為計算機軟體,並在計算機上執行,以展示你所指定的功能。同樣地,在生物軟體中,你定義一個生物程式的片段,然後利用一個編譯器進行編譯。但這裡的關鍵是,我們並不是使用傳統的工程編譯器,因為生命體系的複雜性遠非計算機所能比擬。然而,透過引入具有學習能力的人工智慧編譯器,我們能夠將這些生物程式片段編譯或轉換成分子。當這些分子被插入生物系統或有機體中時,我們的細胞就會按照預設的功能進行運作。
問:這與mRNA COVID疫苗的工作原理是否相似?
烏斯克爾特:mRNA COVID疫苗可以被視為一個極為簡單的例項。在這個例子中,程式指示細胞“製造這種經過修飾的病毒抗原”,隨後細胞就會按照指示生產相應的蛋白質。然而,你可以想象,分子所能展現的行為遠比這更加複雜。為了直觀理解這些行為的複雜性,你只需考慮RNA病毒即可。它們僅僅是RNA分子,但當它們侵入生物體時,卻能夠展現出令人難以置信的複雜行為。例如,它們能夠在生物體內廣泛分佈,甚至在全球範圍內傳播,還能在特定的時間段僅在生物體的少數細胞中執行特定任務等等。因此,你可以設想,如果我們能夠設計出具備這些功能的微小分子,將會帶來怎樣的變革。當然,我們的目標絕非製造讓人生病的分子,而是創造對人類健康有益的分子,這將徹底改變醫學的面貌。
問:你如何確保不會意外地創造出具有破壞性的RNA序列?
烏斯克爾特:在很長一段時間裡,醫學在某種程度上一直遊離於科學之外。它並未被真正透徹地理解,而我們至今仍未完全掌握其實際的作用機制。
因此,人類不得不開發出各種保障措施和臨床試驗流程。這些基於經驗的保障措施,在患者踏入診所之前就已經存在,它們能夠阻止我們因疏忽而製造出危險物質。自現代醫學誕生以來,這些系統便一直伴隨著我們。因此,我們將繼續沿用這些系統,並竭盡全力確保安全。我們將從最小的系統開始實驗,在未來的實驗中採用單個細胞,並嚴格遵循醫學界的既定協議,以確保這些分子的安全性。(小小)