在人工智慧(AI)領域,斯坦福大學教授被稱為“AI 教母”。
她在深度學習革命中發揮了重要作用,多年來一直致力於建立 ImageNet 資料集和競賽,該資料集和競賽要求人工智慧系統識別 1000 個類別的物體和動物。2012年,一個名為 AlexNet 的神經網路在 ImageNet 競賽中獲得了冠軍,其出色的表現震驚了整個人工智慧研究界。
從那時起,神經網路在網際網路上提供的大量免費訓練資料和可提供前所未有計算能力的 GPU 的推動下,開始取得突破。
在 ImageNet 出現之後的 13 年裡,計算機視覺研究人員掌握了物體識別技術,並開始研究影象和影片生成技術。李飛飛與他人共同建立了斯坦福以人為本人工智慧研究院(HAI),並繼續推動計算機視覺的發展。就在今年,她創辦了一家初創公司--World Labs,該公司可以生成使用者可以探索的 3D 場景。World Labs 致力於賦予人工智慧“空間智慧”,即生成 3D 世界、在 3D 世界中進行推理並與之互動的能力。
昨天,李飛飛在人工智慧頂會 NeurIPS 上發表了題為“From Seeing to Doing: Ascending the Ladder of Visual Intelligence”的主旨演講,闡述了她對機器視覺的願景。
主旨演講連結:
https://neurips.cc/virtual/2024/invited-talk/101127
在演講前,李飛飛接受了 IEEE Spectrum 高階編輯 Eliza Strickland 的專訪。內容如下:
Eliza Strickland:為什麼將演講題目定為“攀登視覺智慧的階梯”(Ascending the Ladder of Visual Intelligence)?
李飛飛:我認為,直觀地說,智慧有不同程度的複雜性和先進性。在演講中,我想表達的是,在過去的幾十年裡,尤其是深度學習革命的十多年裡,我們在視覺智慧方面所學到的東西令人驚訝。我們的技術能力越來越強。Judea Pearl 提出的“因果關係階梯”也給了我啟發。
演講還有一個副標題,“從看到做”。人們對這一點還不夠了解:無論是動物還是 AI 智慧體,“看”都與互動和“做”密切相關。這和語言是不同的。語言從根本上說是一種交流工具,用來傳遞思想。在我看來,這些都是非常互補但同樣影響深刻的智慧模態。
ES:你的意思是說,我們會本能地對某些景象做出反應?
李飛飛:我說的不僅僅是本能。如果你看一下感知的進化和動物智慧的進化,就會發現這兩者之間有著深刻的聯絡。每當我們能夠從環境中獲得更多資訊時,進化的力量就會推動能力和智慧的發展。如果你不能感知環境,你與世界的關係就會非常被動;你是吃還是被吃,都是非常被動的行為。但是,一旦你能夠透過感知從環境中獲取線索,進化的壓力就會真正增大,從而推動智慧的發展。
ES:你認為這就是我們創造更深入的機器智慧的方式嗎?讓機器感知更多環境?
李飛飛:我不知道“深入”是不是我想用的形容詞。我認為我們正在創造更多的能力。我認為它正變得越來越複雜,越來越有能力。我認為,解決空間智慧問題是邁向全面智慧化的基礎和關鍵一步,我對這一點深信不疑。
ES:我看過 World Labs 的演示。你為什麼想研究空間智慧並構建這些 3D 世界?
李飛飛:我認為空間智慧是視覺智慧的發展方向。如果我們真的要解決視覺問題,並將其與做某些事聯絡起來,有一個非常簡單、一目瞭然的事實:世界是 3D 的。我們生活的世界不是平面的。我們的物理智慧體,無論是機器人還是裝置,都將生活在 3D 世界中。就連虛擬世界也變得越來越 3D 化。如果你與藝術家、遊戲開發者、設計師、建築師和醫生交談,即使他們是在虛擬世界中工作,其中大部分也是 3D 的。如果你能靜下心來,認清這個簡單而深刻的事實,那麼毫無疑問,破解 3D 智慧問題就是根本所在。
ES:我很好奇 World Labs 展示的場景是如何保持物體的永續性和遵守物理定律的。這感覺像是一個令人興奮的進步,因為像 Sora 這樣的影片生成工具仍然在摸索這些東西。
李飛飛:一旦你認同了世界的 3D 性,很多事情就自然而然地發生了。例如,在我們釋出在社交媒體上的一個影片中,籃球被投放到一個場景中。因為它是 3D 的,所以你可以擁有這種能力。如果場景只是 2D 生成的畫素,籃球將無處可去。
ES:或者,就像在 Sora 中一樣,它可能會出現在某個地方,但隨後就消失了。在嘗試推進這項技術的過程中,你們面臨的最大技術挑戰是什麼?
李飛飛:沒有人解決過這個問題,對吧?這非常非常難。在 World Labs 的演示影片中,你可以看到我們用一幅梵高的畫,以統一的風格生成了它周圍的整個場景:藝術風格、燈光,甚至街區會有什麼樣的建築。如果你轉過身去,它就變成了摩天大樓,那就完全沒有說服力了。它必須是 3D 的。你必須在其中導航。因此,它不僅僅是畫素。
ES:你能說說你用來訓練它的資料嗎?
李飛飛:很多。
ES:你在算力負擔方面是否面臨技術挑戰?
李飛飛:算力需求很大。這是公共部門無法負擔的。這也是我很高興能夠以私營部門的方式來做這件事的部分原因。這也是我一直推動公共部門算力訪問的部分原因,我的親身經歷強調了創新與充足資源的重要性。
ES:如果能賦予公共部門權力就更好了,因為公共部門通常更願意為自己和人類的利益而獲得知識。
李飛飛:知識的發現需要資源的支援。在伽利略時代,是最好的望遠鏡讓天文學家觀測到了新的天體。是胡克(Robert Hooke)意識到放大鏡可以改進成顯微鏡,並發現了細胞。每當有新的技術工具出現,都有助於知識的探尋。而現在,在人工智慧時代,技術工具涉及算力和資料。對於公共部門來說,我們必須認識到這一點。
ES:假設我們可以讓人工智慧系統真正理解 3D 世界,這將給我們帶來什麼?
李飛飛:它將為人們釋放大量的創造力和生產力。我想用一種更高效的方式來設計我的房子。我知道很多醫學用途都涉及到理解一個非常特殊的 3D 世界,也就是人體。我們總是在談論未來人類將創造機器人來幫助我們,但機器人在 3D 世界中導航,它們需要空間智慧作為大腦的一部分。我們還討論了虛擬世界,它將允許人們參觀地方、學習概念或娛樂。這些都使用 3D 技術,尤其是混合技術,我們稱之為 AR。我想帶著一副眼鏡穿過公園,它能告訴我關於樹木、小路和雲的資訊。我也想透過空間智慧學習不同的技能。
ES:什麼樣的技能?
李飛飛:我舉一個簡單的例子,如果我在高速公路上爆胎了,我該怎麼辦?現在,我需要開啟一個“如何換輪胎”的影片。但如果我能戴上眼鏡,看到我的車發生了什麼,然後在指導下完成這個過程,那就太酷了。你還可以考慮烹飪,你可以考慮雕刻——有趣的事情。
ES:你認為在我們有生之年,我們還能在這方面走多遠?
李飛飛:我認為這將在我們的有生之年發生,因為技術進步的步伐非常快。你們已經看到了過去 10 年帶來的變化。這無疑預示著接下來會發生什麼。
訪談連結:
https://spectrum.ieee.org/fei-fei-li-world-labs
原文作者:Eliza Strickland,IEEE Spectrum 高階編輯,主要報導人工智慧、生物醫學工程等主題。
如需轉載或投稿,請直接在公眾號內留言