時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

LeCun 的世界模型初步實現!基於預訓練視覺特徵,零樣本規劃

2024-11-19 04:43:02

機器之心報道

編輯:Panda

在 LLM 應用不斷迭代升級更新的當下,圖靈獎得主 Yann LeCun 卻代表了一股不同的聲音。他在許多不同場合都反覆重申了自己的一個觀點:當前的 LLM 根本無法理解世界。他曾說過:LLM「理解邏輯的能力非常有限…… 無法理解物理世界,沒有持續性記憶,不能推理(只要推理的定義是合理的)、不能規劃。」

Yann LeCun 批評 LLM 的推文之一

相反,他更注重所謂的世界模型(World Model),也就是根據世界資料擬合的一個動態模型。比如驢,正是有了這樣的世界模型,它們才能找到更省力的負重登山方法。

近日,LeCun 團隊釋出了他們在世界模型方面的一項新研究成果:基於預訓練的視覺特徵訓練的世界模型可以實現零樣本規劃!也就是說該模型無需依賴任何專家演示、獎勵建模或預先學習的逆向模型。

論文標題:DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning論文地址:https://arxiv.org/pdf/2411.04983v1專案地址:https://dino-wm.github.io/

該團隊提出的 DINO-WM 是一種可基於離線的軌跡資料集構建與任務無關的世界模型的簡單新方法。據介紹,DINO-WM 是基於世界的緊湊嵌入建模世界的動態,而不是使用原始的觀察本身。

對於嵌入,他們使用的是來自 DINOv2 模型的預訓練圖塊特徵,其能提供空間的和以目標為中心的表徵先驗。該團隊推測,這種預訓練的表徵可實現穩健且一致的世界建模,從而可放寬對具體任務資料的需求。

有了這些視覺嵌入和動作後,DINO-WM 會使用 ViT 架構來預測未來嵌入。

完成模型訓練之後,在解決任務時,規劃會被構建成視覺目標的達成,即給定當前觀察達成未來的預期目標。由於 DINO-WM 的預測質量很高,於是就可以簡單地使用模型預測控制和推理時間最佳化來達成期望的目標,而無需在測試期間使用任何額外資訊。

DINO 世界模型

概述和問題表述:該研究遵循基於視覺的控制任務框架,即將環境建模為部分可觀察的馬爾可夫決策過程 (POMDP)。POMDP 可定義成一個元組 (O, A, p),其中 O 表示觀察空間,A 表示動作空間。p (o_{t+1} | o≤t, a≤t) 是一個轉移分佈,建模了環境的動態,可根據過去的動作和觀察預測未來的觀察。

這項研究的目標是從預先收集的離線資料集中學習與任務無關的世界模型,然後在測試時間使用這些世界模型來執行視覺推理。

在測試時間,該系統可從一個任意的環境狀態開始,然後根據提供的目標觀察(RGB 影象形式),執行一系列動作 a_0, ..., a_T,使得目標狀態得以實現。

該方法不同於線上強化學習中使用的世界模型,其目標是最佳化手頭一組固定任務的獎勵;也不同於基於文字的世界模型,其目標需要透過文字提示詞指定。

基於 DINO 的世界模型(DINO-WM)

該團隊將環境動態建模到了隱藏空間中。更具體而言,在每個時間步驟 t,該世界模型由以下組分構成:

其中,觀察模型是將影象觀察編碼成隱藏狀態 z_t,而轉移模型則是以長度為 H 的過去隱藏狀態歷史為輸入。解碼器模型則是以隱藏的 z_t 為輸入,重建出影象觀察 o_t。這裡的 θ 表示這些模型的引數。

該團隊指出,其中的解碼器是可選的,因為解碼器的訓練目標與訓練世界模型的其餘部分無關。這樣一來,就不必在訓練和測試期間重建影象了;相比於將觀察模型和解碼器的訓練結合在一起的做法,這還能降低計算成本。

DINO-WM 僅會建模環境中離線軌跡資料中可用的資訊,這不同於近期的線上強化學習世界模型方法(還需要獎勵和終止條件等與任務相關的資訊)。

使用 DINO-WM 實現視覺規劃

為了評估世界模型的質量,需要了解其在下游任務上的推理和規劃能力。一種標準的評估指標是在測試時間使用世界模型執行軌跡最佳化並測量其效能。雖然規劃方法本身相當標準,但它可以作為一種展現世界模型質量的手段。

為此,該團隊使用 DINO-WM 執行了這樣的操作:以當前觀察 o_0 和目標觀察 o_g(都是 RGB 影象)為輸入,規劃便是搜尋能使智慧體到達 o_g 的一個動作序列。為了實現這一點,該團隊使用了模型預測性控制(MPC),即透過考慮未來動作的結果來促進規劃。

為了最佳化每次迭代的動作序列,該團隊還使用了一種隨機最佳化演算法:交叉熵方法(CEM)。其規劃成本定義為當前隱藏狀態與目標隱藏狀態之間的均方誤差(MSE),如下所示:

實驗

該團隊基於以下四個關鍵問題進行了實驗:

能否使用預先收集的離線資料集有效地訓練 DINO-WM?訓練完成後,DINO-WM 可以用於視覺規劃嗎?世界模型的質量在多大程度上取決於預訓練的視覺表徵?DINO-WM 是否可以泛化到新的配置,例如不同的空間佈局和物體排列方式?

為了解答這些問題,該團隊在 5 個環境套件(Point Maze、Push-T、Wall、Rope Manipulation、Granular Manipulation)中訓練和評估了 DINO-WM,並將其與多種在隱藏空間和原始畫素空間中建模世界的世界模型進行了比較。

使用 DINO-WM 最佳化行為

該團隊研究了 DINO-WM 是否可直接用於在隱藏空間中實現零樣本規劃。

如表 1 所示,在 Wall 和 PointMaze 等較簡單的環境中,DINO-WM 與 DreamerV3 等最先進的世界模型相當。但是,在需要準確推斷豐富的接觸資訊和物體動態才能完成任務的操縱環境中,DINO-WM 的表現明顯優於之前的方法。

下面展示了一些視覺化的規劃結果:

預訓練的視覺表徵重要嗎?

該團隊使用不同的預訓練通用編碼器作為世界模型的觀察模型,並評估了它們的下游規劃效能。

在涉及簡單動態和控制的 PointMaze 任務中,該團隊觀察到具有不同觀察編碼器的世界模型都實現了近乎完美的成功率。然而,隨著環境複雜性的增加(需要更精確的控制和空間理解),將觀察結果編碼為單個隱藏向量的世界模型的效能會顯著下降。他們猜想基於圖塊的表徵可以更好地捕獲空間資訊,而 R3M、ResNet 和 DINO CLS 等模型是將觀察結果簡化為單個全域性特徵向量,這樣會丟失操作任務所需的關鍵空間細節。

泛化到全新的環境配置

該團隊也評估了新提出的模型對不同環境的泛化能力。為此,他們構建了三類環境:WallRandom、PushObj 和 GranularRandom。實驗中,世界模型會被部署在從未見過的環境中去實現從未見過的任務。圖 6 展示了一些示例。

結果見表 3。可以看到,DINO-WM 在 WallRandom 環境中的表現明顯更好,這表明世界模型已經有效地學習了牆壁和門的一般概念,即使它們位於訓練期間未曾見過的位置。相比之下,其他方法很難做到這一點。

PushObj 任務對於所有方法來說都挺難,因為該模型僅針對四種物體形狀進行了訓練,這使其很難精確推斷重心和慣性等物理引數。

在 GranularRandom 中,智慧體遇到的粒子不到訓練時出現的一半,導致影象出現在了訓練例項的分佈之外。儘管如此,DINO-WM 依然準確地編碼了場景,併成功地將粒子聚集到與基線相比具有最小 Chamfer Distance(CD)的指定方形位置。這說明 DINO-WM 具有更好的場景理解能力。該團隊猜想這是由於 DINO-WM 的觀察模型會將場景編碼為圖塊特徵,使得粒子數量的方差仍然在每個圖塊的分佈範圍內。

與生成式影片模型的定性比較

鑑於生成式影片模型的突出地位,可以合理地假設它們可以很容易地用作世界模型。為了研究 DINO-WM 相對於此類影片生成模型的實用性,該團隊將其與 AVDC(一個基於擴散的生成式模型)進行了比較。

如圖 7 所示,可以看到,在基準上訓練的擴散模型能得到看起來相當真實的未來影象,但它們在物理上並不合理,因為可以看到在單個預測時間步驟中就可能出現較大的變化,並且可能難以達到準確的目標狀態。

DINO-WM 所代表的方法看起來頗有潛力,該團隊表示:「DINO-WM 朝著填補任務無關型世界建模以及推理和控制之間的空白邁出了一步,為現實世界應用中的通用世界模型提供了光明的前景。」

https://www.ft.com/content/23fab126-f1d3-4add-a457-207a25730ad9

熱門資訊
  • 聯力全球首創L形拐彎電源:輕鬆走線 前所未有 | 2024-02-17 22:53:13
  • 小米14 Ultra或推出鈦合金特別版,新品釋出越來越近 | 2024-02-17 23:16:24
  • 機械革命又出新,13450HX配RTX4060,用上液態金屬散熱僅5799元 | 2024-02-17 23:16:28
  • 浩瀚宇宙人類太幸運,如果地球距離太陽近5%,會有什麼結果? | 2024-02-17 23:16:32
  • 世界級千禧難題“納維–斯托克斯方程”:數學史上最複雜的公式! | 2024-02-17 23:16:36
  • 宇宙中兩個星系相撞會是什麼景象?超乎你的想象! | 2024-02-17 23:16:39
  • 夢迴2020 蘋果iPhone 16再次使用垂直鏡頭排列 | 2024-02-17 23:16:43
  • Android 15開發者預覽版映象暫停下載,官方稱需要解決已知問題 | 2024-02-17 23:35:56
  • 解密驍龍 8 Gen 4:高通自研架構的效能怪獸 | 2024-02-17 23:41:31
  • vivo首款Pro大摺疊曝光!X Fold3 Pro 獨享這三大功能 | 2024-02-17 23:51:07
  • 主打“影像旗艦”,小米 14 Ultra 手機詳細規格和渲染圖曝光 | 2024-02-17 23:51:14
  • 砸144億!沃爾瑪收購電視巨頭值嗎? | 2024-02-17 23:51:19
  • Nature|2024年值得關注的七項技術 | 2024-02-17 23:51:30
  • 2024年華為手機排行榜,科技奇蹟煥發新生!以下是我挑選的前6名 | 2024-02-17 23:51:54
  • 突發!OPPO、vivo退出小摺疊手機市場 | 2024-02-17 23:53:05
  • 日本新型H3火箭2號機發射成功,已完成飛行試驗主要目的 | 2024-02-18 00:53:48
  • 假如我把一臺電腦裸機,帶回1970年會發生什麼?這個答案可能出乎意料之外 | 2024-02-18 04:02:40
  • 曝小米14 Ultra等將基於大模型做高倍率超分演算法 | 2024-02-18 06:05:37
  • 美國商業月球著陸器Odysseus傳回地球壯麗照片 | 2024-02-18 07:48:41
  • 日企推出可以在床上躺著洗澡的淋浴器 價格很震撼 | 2024-02-18 07:55:40
  • 小米 14 Ultra 手機發布在即,現已開啟線下盲訂 | 2024-02-18 08:55:13
  • Android 15 新增“通知冷卻”功能,再也不怕群聊轟炸 | 2024-02-18 08:55:16
  • 微軟 Surface Pro 9 英特爾版獲推 2 月韌體更新 | 2024-02-18 09:15:00
  • 諾獎之後的又一次突破!最新Science:首次看到電子在液態水中實時移動,中國青年學者一作! | 2024-02-18 09:20:42
  • 北京工業大學翟天瑞教授團隊《自然·通訊》:雙色正交偏振有機發光二極體 | 2024-02-18 09:20:55
  • 早報:曝小米14 Ultra厚度大減 FF公司拖欠租金被起訴 | 2024-02-18 09:21:40
  • 喬羽/谷林/徐桂良/孫洋/王青松合作Nature Sustainability! | 2024-02-18 09:28:00
  • Sora爆火,業內:中美AI差距擴大 | 2024-02-18 09:40:07
  • 復旦韓慶、鄭耿鋒/北理邵會波Angew : 分子定製電子/質子“提取器”提高COF光催化產過氧化氫 | 2024-02-18 09:41:08
  • Cell子刊:中山大學曹楠團隊發現鞘脂代謝控制哺乳動物心臟再生 | 2024-02-18 09:41:13
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們