奇月 發自 凹非寺量子位 | 公眾號 QbitAI
現在,隨便丟給機械手一個陌生物體,它都可以像人類一樣輕鬆拿捏了——
除了,罐頭、樂高積木、大象玩偶、骰子,都不在話下:
這就是來自Meta FAIR團隊最新的NeuralFeels技術,透過融合觸覺和視覺,機械手可以更精確地操作未知物體,精度最高提升了94%!
這項研究還登上了Science Robotics的封面,團隊同時也公開了包含70個實驗的新測試基準FeelSight。
如何讓機械手精確操作未知物體?
讓機械手拿取常見的魔方、水果等早已是基操,但如何讓機器人更好地操作未知物體一直是一個研究難題。
一個重要原因是目前的機械手訓練都太過於依靠視覺,並且僅限於操作已知的先驗物體,而現實中很多時候物體都會受到視覺遮擋,導致訓練往往進步緩慢。
對此,團隊研發出一種名為NeuralFeels的創新技術,為機器人在複雜環境中的物體感知與操作帶來了新的突破。
這究竟是怎麼做到的呢?讓我們來一起看一下技術細節——
融合了觸覺的多模態感知
NeuralFeels技術的創新之處在於結合了視覺和觸覺,透過多模態融合的方式,讓機器手能夠對未知物體持續進行3D建模,更精確地估計手持操作中物體的姿態和形狀。
具體的處理流程如下圖所示,前端實現了視覺和觸覺的魯棒分割和深度預測,而後端將此資訊結合成一個神經場,同時透過體積取樣進一步最佳化姿態。
而在遮擋視角下,視覺與觸覺融合有助於提高跟蹤效能,還可以從無遮擋的區域性視角進行跟蹤。團隊在攝像機視角的球面上量化了這些收益。
從下圖中可以觀察到,當視覺嚴重遮擋時,觸覺的作用更大,而在幾乎沒有遮擋時,觸覺會發揮微調作用。
前端深度學習策略
首先來看看NeuralFeels技術的前端(Front end),它採用了基於深度學習的分割策略和觸覺Transformer,可以精確提取目標物件深度。
用運動學分割一切
神經最佳化非常依賴分割物件的輸入深度,所以團隊將前端設計成能夠從視覺中魯棒地提取物件深度的形式。深度在RGB-D相機中是現成的,但為了應對嚴重遮擋的問題,團隊還引入了一種基於強大視覺基礎模型的動力學感知分割策略。
觸覺Transformer
最近有研究表明,在自然影象中使用ViT進行密集深度預測更有效,於是團隊提出了一種觸覺Transformer,用於透過視覺觸覺預測接觸深度,這個Transformer完全在模擬中訓練,可在多個真實世界的DIGIT感測器上通用。機械手可以用嵌入式攝像頭直接感知發光的膠墊,透過監督學習獲得接觸深度。
後端姿勢最佳化
NeuralFeels的後端(Back end)部分透過使用Theseus中的自定義測量因子,將前端的中間輸出轉化為非線性最小二乘問題進行最佳化。
形狀和姿態最佳化器
後端模組從前端模組得到中間輸出,並在線構物件模型。這個過程將交替使用來自視覺-觸覺深度流的樣本進行地圖和姿態最佳化步驟。在本研究的地圖最佳化器中,即時NGP模型的權重可以完全描述物體的3D幾何結構。
神經SLAM
在現實世界和模擬中,團隊構建了一個不斷演進的神經SDF,它整合了視覺和觸覺,並可以同時跟蹤物體。下圖展示了對應的RGB-D和觸覺影象的輸入流,以及相應的姿態重建。
神經跟蹤:給定形狀的物件姿態估計
當目標物件存在對應的CAD模型時,NeuralFeels可以實現優秀的多模態姿態跟蹤能力。此時目標物件的SDF模型是預先計算的,NeuralFeels會凍結神經場的權重,僅使用前端估計進行視覺-觸覺跟蹤。
NeuralFeels大大提升了機械手效能
為了評估NeuralFeels技術的效能,研究團隊在模擬和真實世界環境中進行了多次實驗,涉及14種不同物體,相關測試集FeelSight也已釋出!
實驗中使用了多種評估指標,包括用於評估姿勢跟蹤誤差的對稱平均歐幾里得距離(ADD-S),以及用於衡量形狀重建精度和完整性的F分數等。
結果非常令人驚喜,NeuralFeels技術在以下3個方面都有非常出色的表現:
1.物體重建精度大幅提升
在物體重建方面,研究發現結合觸覺資訊後,表面重建精度在模擬環境中平均提高了15.3%,在真實世界中提高了 14.6%。
最終重建結果在模擬環境中的中位誤差為2.1毫米,真實世界中為3.9毫米。這表明NeuralFeels技術能夠有效地利用觸覺資訊補充視覺資訊,更準確地重建物體形狀。
2.物體姿態跟蹤更加精準
在物體姿態跟蹤方面,NeuralFeels技術相比僅使用視覺資訊的基線方法有顯著改進。
在模擬環境中,姿態跟蹤精度提高了21.3%,真實世界中提高了26.6%。
在已知物體形狀的姿態跟蹤實驗中,即使存在不精確的視覺分割和稀疏的觸控訊號,該技術也能實現低誤差的姿態跟蹤,平均姿態誤差可降至2毫米左右。
並且,觸覺資訊在降低平均姿態誤差方面發揮了重要作用,在模擬環境中可使誤差降低22.29%,在真實世界中降低 3.9%。
3.應對複雜場景表現出色
在面對嚴重遮擋和視覺深度噪聲等具有挑戰性的場景時,NeuralFeels技術同樣表現非常出色。
在模擬的200個不同相機視角的遮擋實驗中,平均跟蹤效能提升 21.2%,在嚴重遮擋情況下提升幅度可達94.1%!
在視覺深度噪聲模擬實驗中,隨著噪聲增加,融合觸覺資訊能有效降低誤差分佈,使機器人在視覺資訊不理想的情況下仍能準確跟蹤物體姿態。
研究意義
NeuralFeels技術的創新之處在於它融合了多模態資料、並結合了線上神經場,這些技術讓機器人能夠在操作未知物體時實現更準確的姿態跟蹤和形狀重建。
而且,與複雜的感測器相比,團隊使用空間感知組合所需的硬體更少,也比端到端感知方法更容易解釋。
儘管目前在一些方面仍存在改進空間,如在長期跟蹤中由於缺乏閉環檢測可能導致小誤差累積,但對於提升機械手操作精度的效果非常顯著,
未來,研究人員計劃進一步最佳化技術,例如透過基於特徵的前端獲取更粗略的初始化,加入長期閉環檢測以減少姿態誤差的累積,透過控制神經SLAM的輸出進行通用靈巧性研究等。
這樣一來,家庭、倉庫和製造業等複雜環境中作業的機器人的效能都有可能得到極大的提升了!
參考資料:[1]https://www.science.org/doi/10.1126/scirobotics.adl0628[2]https://suddhu.github.io/neural-feels/