時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

CMU華人18萬打造高能機器人,完爆斯坦福炒蝦機器人!全自主操作,1小時學會開12種門

2024-01-27 13:28:41

新智元報道

編輯:Aeneas 桃子

【新智元導讀】斯坦福炒菜機器人的大火,開啟了2024年機器人元年。最近,CMU研究團隊推出了一款能在開放世界完成任務的機器人,成本僅18萬元。沒見過的場景,它可以靠自學學會!

比斯坦福炒蝦機器人還厲害的機器人來了!

最近,CMU的研究者只花費2.5萬美元,就打造出一個在開放世界中可以自適應移動操作鉸接物件的機器人。

厲害之處就在於,它是完全自主完成操作的。

看,這個機器人能自己開啟各式各樣的門。

無論是需要按一下把手才能開啟的門。


需要推開的門。


透明的彈簧門。


甚至是昏暗環境中的門。


它還能自己開啟櫥櫃。


開啟抽屜。


自己開啟冰箱。


甚至,它的技能推廣到訓練以外的場景。

結果發現,一個小時內,機器人學會開啟20個從未見過的門,成功率從行為克隆預訓練的50%,飆升到線上自適應的95%。

即使眼前是一個它從未見過的門,這個優秀的小機器人也順利打開了!



英偉達高階科學家Jim Fan表示:

斯坦福的ALOHA雖然令人印象深刻,但很多動作都需要人類協同控制,但這個機器人,則是完全自主完成的一系列操作。

它背後的核心思想,就是在測試時進行RL,使用CLIP(或任何視覺語言模型)作為學習的獎勵函式。

這樣,就像ChatGPT用RLHF進行預訓練一樣,機器人可以對人類收集的軌跡進行預訓練(透過遠端控制),然後透過新場景進行RLHF,這樣就掌握了訓練以外的技能。

這項工作一經發布,立刻獲得了同行們的肯定。

「恭喜!這是將機械臂帶出實驗室的好裝置。」

「太令人激動了,讓機器人線上學習技能前景巨大!」

「如此便宜的定製硬體,會讓移動操作變得瘋狂。」

「永遠不要惹一個機器人,它已經學會開門了。」

讓我們具體看看,這個機器人是如何完成未見過的開門任務。

機器人自適應學習,效能暴漲至90%

當前多數機器人移動操作,僅限於拾取-移動-放置的任務。

由於多種原因,在「開放世界」中開發和部署,能夠處理看不見的物體機器人系統具有極大的挑戰性。

針對學習「通用移動操作」的挑戰,研究人員將研究重點放在一類有限的問題——涉及鉸接式物體的操作,比如開放世界中的門、抽屜、冰箱或櫥櫃。

別看,開門、開啟抽屜、冰箱這種日常生活中的操作對於每個人來說,甚至小孩子來說輕而易舉,卻是機器人的一大挑戰。

對此,CMU研究人員提出了「全棧」的方法來解決以上問題。

為了有效地操縱開放世界中的物體,研究中採用了「自適應學習」的框架,機器人不斷從互動中收集線上樣本進行學習。

這樣一來,即使機器人遇到了,不同鉸接模式或不同物理引數(因重量或摩擦力不同)的新門,也可以透過互動學習實現自適應。

為了實現高效學習,研究人員使用一種結構化的分層動作空間。它使用固定的高階動作策略和可學習的低層控制引數。

使用這種動作空間,研究人員透過各種遠端操作演示的資料集,初始化了策略(BC)。這為探索提供了一個強有力的先驗,並降低了執行不安全動作的可能性。

成本僅2.5萬美金

此前,斯坦福團隊在打造Mobile ALOHA的所有成本用了3萬美元。

而這次,CMU團隊能夠以更便宜的成本——2.5萬美元(約18萬元),打造了一臺在通用世界使用的機器人。


如下圖3所示,展示了機器人硬體系統的不同元件。

研究人員選用了AgileX的Ranger Mini 2底座,因其具有穩定性,全向速度控制,和高負載稱為最佳選擇。

為了使這樣的系統有效,能夠有效學習至關重要,因為收集現實世界樣本的成本很高。

使用的移動機械手臂如圖所示。

手臂採用了xArm進行操作,有效負載為5公斤,成本較低,可供研究實驗室廣泛使用。

CMU機器人系統使用了Jetson計算機來支援感測器、底座、手臂,以及託管LLM的伺服器之間的實時通訊。

對於實驗資料的收集,是透過安裝在框架上的D435 IntelRealsense攝像頭來收集RGBD影象,並使用T265 Intel Realsense攝像頭來提供視覺里程計,這對於在執行RL試驗時重置機器人至關重要。

另外,機器人抓手還配備了3D列印抓手和防滑帶,以確保安全穩定的抓握。

研究人員還將建立的模組化平臺的關鍵方面,與其他移動操縱平臺進行比較。

看得出,CMU的機器人系統不論是在手臂負載力,還是移動自由度、全向驅動的底座、成本等方面具有明顯的優勢。

原始實現

引數化原始動作空間的實現細節如下。

抓取

為了實現這個動作,對於從實感相機獲得的場景RGBD影象,研究者使用現成的視覺模型,僅僅給出文字提示,就能獲取門和把手的掩碼。

此外,由於門是一個平面,因此可以使用相應的掩碼和深度影象,來估計門的表面法線。

這就可以將底座移動到靠近門的地方,使其垂直,並設定抓握把手的方向角度。

使用相機校準,將把手的2D掩碼中心投影到3D座標,這就是標記的抓取位置。

原始抓取的低階控制引數,會指示要抓取位置的偏移量。

這是十分有益的,因為根據把手的型別,機器人可能需要到達稍微不同的位置,透過低階連續值引數,就可以來學習這一點。

約束移動操縱

對於機器人手臂末端執行器和機器人底座,研究者使用了速度控制。

透過在SE2平面中的6dof臂和3dof運動,他們建立了一個9維向量。

其中前6個維度對應手臂的控制,後三個維度對應底座。

研究者使用原始資料,對該空間施加了如下約束——

在控制機器人時,策略會輸出與要執行的原始資料相對應的索引,以及運動的相應低階引數。

低階控制命令的值從-1到1連續,並且會在一段固定的持續時間內執行。

引數的符號決定了速度控制的方向,順時針或逆時針用於解鎖和旋轉,向前或向後用於開啟物體。

預訓練資料集

在這個專案中考慮的鉸接物體,由三個剛性部分組成:底座部分、框架部分和手柄部分。

其中包括門、櫥櫃、抽屜和冰箱等物體。

它們的底座和框架透過旋轉接頭(如在櫥櫃中)或稜柱接頭(如在抽屜中)連線。框架透過旋轉接頭或固定接頭連線到手柄。

因此,研究者確定了鉸接物體的四種主要型別,分類取決於與手柄的型別和關節機構。

手柄關節通常包括槓桿(A型)和旋鈕(B型)。

對於手柄沒有鉸接的情況,主體框架可以使用旋轉接頭(C型)繞鉸鏈旋轉,或者沿著柱接頭(例如抽屜)前後滑動(D型)。

雖然並不詳盡,但可以說這四種分類基本涵蓋了機器人系統可能遇到的各種日常鉸接物體。

然而,總還有機器人看不到的新型鉸接物體,為了提供操作這些新型鉸接物體的泛化優勢,研究者首先收集了離線演示資料集。

在BC訓練資料集中,包含了每個類別的3個物件,研究者為每個物件收集10個演示,總共生成120個軌跡。

此外,研究者還為每個類別保留了2個測試物件,用於泛化實驗。

訓練和測試物件在視覺外觀(例如紋理、顏色)、物理動力學(例如彈簧載入)和驅動(例如手柄關節可能是順時針或逆時針)方面存在顯著差異。

在圖4中,包含了訓練和測試集中使用的所有物件的視覺化,以及它們來自集合的哪個部分,如圖5所示。

自主安全的線上自適應

在這項工作中,研究者們面臨的最大挑戰就在於,如何使用不屬於BC訓練集的新物件進行操作?

為了解決這個問題,他們開發了一個能夠完全自主強化學習(RL)線上適應的系統。

安全意識探索

確保機器人所採取的探索動作對其硬體來說是安全的,這一點至關重要,特別是它是在關節約束下與物體互動的。

理想情況下,機器人應該可以解決動態任務,比如使用不同力量控制開門。

然而,研究者使用的xarm-6這種低成本手臂,不支援精確的力感應。

因此,為了部署系統,研究者使用了基於線上取樣期間讀取聯合電流的安全機制。

如果機器人取樣到導致關節電流達到閾值的動作,該事件就會終止,並重置機器人,以防止手臂可能會損害到自身,並且會提供負面獎勵,來抑制此類行為。

獎勵規範

在實驗中,人類操作員會給機器人提供獎勵。

如果機器人成功開門,則獎勵+1,如果失敗則獎勵0,如果存在安全違規則獎勵-1。

這種獎勵機制是可行的,因為系統只需要很少的樣本來學習。

然而,對於自主學習,研究者希望消除依賴人類出現在迴圈中的瓶頸。

在這種情況下,他們研究了使用大型視覺語言模型作為獎勵來源的辦法。

具體來說,他們使用CLIP來計算兩個文字提示與機器人執行後觀察到的影象之間的相似度得分。

研究者使用的兩個提示是「門已關閉」和「門已開啟」,他們會計算最終觀察到的影象和每個提示的相似度得分。

如果影象更接近指示門開啟的提示,則分配獎勵+1,否則分配獎勵0。如果觸發安全保護,獎勵為-1。


復位機制

在這個過程中,機器人會採用視覺里程計,利用安裝在其底座上的T265跟蹤攝像頭,使其能夠導航回初始位置。

每次行動結束時,機器人會放開抓手,並移回原來的SE2基地位置,並拍攝If的影象以用於計算獎勵。

然後,研究者對SE2基地位置進行隨機擾動,以便策略變得更加穩健。

此外,如果獎勵為1,門被開啟時,機器人就會有一個指令碼例程,來把門關上。

實驗結果

研究人員在CMU校園內四棟不同建築中(12個訓練物件和8個測試物件),對全新架構加持的機器人系統進行了廣泛的研究。

具體回答了以下幾個問題:

1)系統能否透過跨不同物件類別的線上自適應,來提高未見過物件的效能?

2)這與僅在提供的演示中,使用模仿學習相比如何?

3)可以使用現成的視覺語言模型自動提供獎勵嗎?

4)硬體設計與其他平臺相比如何?(硬體部分已進行了比較)

線上自適應

a. 不同物體類別評估

研究人員在4個類別的固定銜接物體上,對最新的方法進行了評估。

如下圖6所示,呈現了從行為克隆初始策略開始,利用線上互動進行5次迭代微調的持續適應性能。

每次改進迭代包括5次策略rollout,之後使用等式5中的損失對模型進行更新。

可以看到,最新方法將所有物件的平均成功率從50%提高到95%。因此,透過線上互動樣本不斷學習能夠克服初始行為克隆策略的有限泛化能力。

自適應學習過程能夠從獲得高獎勵的軌跡中學習,然後改變其行為,更頻繁地獲得更高的獎勵。

在BC策略效能尚可的情況下,比如平均成功率約為70%的C類和D類物件,RL能夠將策略完善到100%的效能。

此外,即使初始策略幾乎無法執行任務,強化學習也能夠學習如何操作物件。這從A類實驗中可以看出,模仿學習策略的成功率非常低,只有10%,完全無法開啟兩扇門中的一扇。

透過不斷的練習,RL的平均成功率可以達到90%。

這表明,RL可以從模仿資料集中探索出可能不在分佈範圍內的動作,並從中學習,讓機器人學會如何操作未見過的新穎的鉸接物體。

b. Action-replay基線

還有另一種非常簡單的方法,可以利用演示資料集在新物件上執行任務。

研究團隊針對2個特別難以進行行為克隆的物件(A類和B類各一個(按壓槓桿和旋鈕手柄)運行了這一基線。

這裡,採取了開環和閉環兩種方式對這一基線進行評估。

在前一種情況下,只使用第一張觀察到的影象進行比較,並執行整個檢索到的動作序列;而在後一種情況下,每一步執行後都會搜尋最近的鄰居,並執行相應的動作。

從表3中可以看出,這種方法非常無效,進一步凸顯了實驗中訓練物件和測試物件之間的分佈差距。

c. 透過VLM自主獎勵

CMU團隊還研究是否可以透過自動程式來提供獎勵,從而取代人工操作。

正如Action-replay基線一樣,研究人員在兩個測試門上對此進行評估,每個門都從把手和旋鈕類別進行評估。

從表2中,使用VLM獎勵的線上自適應效能與使用人類標註的地面實況獎勵相近,平均為80%,而使用人類標註的獎勵則為90%。

另外,研究人員還在圖7中報告了每次訓練迭代後的效能。學習迴圈中不再需要人類操作員,這為自主訓練和改進提供了可能性。

為了成功操作各種門,機器人需要足夠堅固才能開啟並穿過它們。

研究人員根據經驗與另一種流行的移動操縱系統進行比較,即Stretch RE1(Hello Robot)。

他們測試機器人由人類專家遠端操作,以開啟不同類別的兩扇門的能力,特別是槓桿門和旋鈕門。每個物體都進行了5次試驗。

如表IV所示,這些試驗的結果揭示了Stretch RE1的一個重大侷限性:即使由專家操作,其有效負載能力也不足以開啟真正的門,而CMU提出的AI系統在所有試驗中都取得了成功。

總而言之,CMU團隊在這篇文章中提出了一個全棧系統,用於在開放世界中進行進行自適應學習,以操作各種鉸接式物體,例如門、冰箱、櫥櫃和抽屜。

最新AI系統透過使用高度結構化的動作空間,能夠從很少的線上樣本中學習。透過一些訓練物件的演示資料集進一步構建探索空間。

CMU提出的方法能夠將來自4個不同物件類別中,8個不可見物件的效能提高約50%-95%。

值得一提的是,研究還發現這一系統還可以在無需人工干預的情況下透過VLM的獎勵進行學習。

作者介紹

Haoyu Xiong

Haoyu Xiong是CMU計算機科學學院機器人研究所的研究生研究員,專注於人工智慧和機器人技術。他的導師是Deepak Pathak。

Russell Mendonca

Russell Mendonca是CMU大學機器人研究所的三年級博士生,導師是Deepak Pathak。他本人對機器學習、機器人學和計算機視覺中的問題非常感興趣。

之前,他曾畢業於加州大學伯克利分校電氣工程和計算機科學專業,並在伯克利人工智慧實驗室(BAIR)與Sergey Levine教授一起研究強化學習。

Kenneth Shaw

Kenneth Shaw是卡內基梅隆大學機器人研究所的一年級博士生,導師同樣是Deepak Pathak。他的研究重點是,實現與人類一樣的機械手的靈巧操作。機械手應該如何設計成是何在我們的日常生活中應用?我們如何教機械手模仿人類?最後,我們如何使用模擬和大規模資料來解鎖新的靈巧操作行為?

Deepak Pathak

Deepak Pathak是卡內基梅隆大學計算機科學學院的助理教授,還是機器人研究所的成員。他的工作是人工智慧,是計算機視覺、機器學習和機器人學的交匯點。

參考資料:

https://twitter.com/DrJimFan/status/1750947317975556568

熱門資訊
  • NVIDIA史上最強核彈來了!RTX 5090大曝光:核心面積暴增22%、功耗狂飆600W | 2024-11-24 15:16:48
  • 獲獎名單揭曉!第六屆“傑出工程師獎” | 2024-11-24 15:41:46
  • AMD有望用上全新晶片堆疊技術:延遲大幅減少、效能顯著提升 | 2024-11-24 16:05:35
  • 華碩推出 Prime LC240 ARGB 散熱器:240mm 水冷、冷頭磁吸面蓋 | 2024-11-24 16:08:54
  • 銀昕推出 ZEUS 1650R Titanium 鈦金電源:135mm FDB 風扇 | 2024-11-24 16:29:30
  • 重返長途國際市場之際,C919或成香港航空的選擇 | 2024-11-24 16:48:18
  • 小米 Redmi 智慧電視 X 2025 系列等新品 11 月 27 日釋出 | 2024-11-24 17:21:20
  • 喬思伯推出ZB系列風扇:聯體設計、配360°四面鏡 | 2024-11-24 17:26:01
  • 喜事,長征十號重大突破!首飛時間鎖定,NASA局長或一語命中了 | 2024-11-24 17:56:32
  • AMD Zen5撕裂者仍有16核心:3D快取誰與爭鋒! | 2024-11-24 18:19:43
  • 臺積電確認正在按路線圖推進:A16工藝將於2026年末投產 | 2024-11-24 18:23:15
  • 小漏洞大破壞,那些“名垂青史”的病毒 | 2024-11-24 18:49:08
  • 在無人運輸機領域,再次上演“美國人做PPT,我們來實現” | 2024-11-24 19:26:49
  • AMD銳龍200全系型號曝光:Zen4第二次套馬甲 | 2024-11-24 20:13:25
  • Science重磅:破解40年謎題,揭開自來水消毒產生的神秘化合物 | 2024-11-24 20:44:21
  • 俄羅斯“進步 MS-29”貨運飛船與國際空間站對接 | 2024-11-24 20:44:25
  • 中國超算居全球圖計算能效榜首 | 2024-11-24 20:47:16
  • 蘋果為2024款M4 MacBook Pro提供獨立揚聲器維修部件 | 2024-11-24 21:09:25
  • Intel XeSS遊戲已超100款:普及速度飛快 | 2024-11-24 21:16:18
  • 帶走調查!可疑男子手持三維鐳射掃描器“逛”航展,想幹啥? | 2024-11-24 21:22:54
  • 電弱統一理論:誰是真的英雄? | 2024-11-24 21:23:01
  • 對話人才丨陳奧:推動生命科學臨床醫學的突破 | 2024-11-24 21:43:35
  • 擴散模型=進化演算法!生物學大佬用數學揭示本質 | 2024-11-24 21:56:15
  • 99.9元起 九鯊推出JF500miniRuby散熱器:記憶體避讓設計 | 2024-11-24 22:10:23
  • 冰島大力士“魔山”拉起 282PB 固態硬碟,打破“資料硬拉”紀錄 | 2024-11-24 22:10:26
  • 衛網君:垣信衛星與TELEBRAS達成合作;星艦將使SpaceX成為最具價值的公司;馬斯克對AI的未來提出警告 | 2024-11-24 22:22:37
  • 5分鐘能上手,第一輛能上路的「飛行汽車」來了 | 2024-11-24 22:22:44
  • 古爾曼:蘋果暫時沒有計劃對 AirPods Max 耳機進行重大更新 | 2024-11-24 22:25:15
  • 香港航空:恢復長途航線,瞄準C919 增量顯著 | 2024-11-24 22:37:02
  • AMD RX 7800M外接顯示卡實測:OCuLink介面比USB4效能高28% | 2024-11-24 22:54:13
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們