李飛飛團隊新突破:低成本高泛化機器人訓練 零樣本遷移成功率90%

在機器人訓練中,如何高效地利用模擬環境一直是研究者們關注的重點問題。

近日,美國斯坦福大學李飛飛教授團隊提出了一種突破性的“數字表親”(digital cousins)概念。這一創新方法既保留了數字孿生的優勢,又大大降低了從真實到模擬環境的生成成本,同時提高了學習的泛化能力。

“數字表親”不僅能有效地將真實世界的數據擴展到模擬環境中進行學習,還有望爲機器人訓練帶來顯著進展,爲解決長期存在的模擬到現實遷移問題提供了新的思路。

項目主頁:https://digital-cousins.github.io/

論文地址:https://arxiv.org/abs/2410.07408

▍什麼是“數字表親”?與“數字孿生”有何不同?

什麼是“數字表親”?它與我們熟知的“數字孿生”有何不同?

“數字孿生”作爲真實場景的精確虛擬複製品,雖然能夠準確地對場景進行建模,但其生成成本極爲昂貴,且無法提供良好的跨域泛化能力。而“數字表親”則是一種介於數字孿生與完全隨機化之間的創新概念。它不直接模擬現實世界的特定對應物,但仍然能夠捕捉相似的幾何形狀和語義功能。

通過這種方式,“數字表親”大大降低了生成類似虛擬環境的成本。同時,由於提供了一系列相似但不完全相同的訓練場景,它還能提高從模擬到真實環境的遷移魯棒性。

“數字表親”方法的一大亮點在於,它能夠同時實現以下三個目標:

1、將單幅圖像轉換爲完全交互式的虛擬場景

2、全自動處理過程,無需人工註釋

3、訓練出的機器人策略可以直接在原始場景中進行零樣本部署

這意味着,理論上只需拍攝一張照片,就能完成從現實到虛擬再到現實的全流程訓練。

研究團隊發現,ACDC方法生成的數字表親場景成功保留了原始環境的幾何結構和語義特徵。具體而言,這些策略在零樣本遷移到真實世界時,達到了90%的成功率,遠遠超過了在傳統數字孿生環境中訓練的策略(僅爲25%)。

▍ACDC:自動創建數字表親的核心算法

爲了實現“數字表親”的自動生成,李飛飛教授團隊提出了一種名爲ACDC(Automated Creation of Digital Cousins)的算法。這個算法包含三個關鍵步驟:

1、信息提取:從輸入的單張RGB圖像中提取每個物體的關鍵信息,包括位置、大小、朝向等。

2、數字表親匹配:利用第一步提取的信息,結合預先準備的3D模型資產庫,爲檢測到的每個物體匹配最合適的數字表親模型。

3、場景生成:對選定的數字表親模型進行後處理和組合,生成一個物理上合理且完全可交互的虛擬場景。

ACDC通過這三個階段,能自動生成在語義層面與輸入圖片相近但又不盡相同的虛擬環境。這爲機器人策略學習提供了豐富多樣的訓練場景。

值得注意的是,與數字孿生不同,數字表親並不追求在所有微小細節上都完美重建給定場景,而是專注於保留更高層次的細節,如物體間的空間關係和語義信息。這種做法不僅降低了計算成本,還有助於提高學習策略的泛化能力。

在構建了一組數字表親場景後,研究團隊採用了基於腳本演示的模仿學習方法來訓練機器人策略。他們實現了包括打開、關閉、拿取和放置等基礎技能,這些技能足以用於收集各種日常任務的演示數據,如物體重新排列和操作傢俱等。

▍實驗驗證:“數字表親”的優越性能

爲了全面評估"數字表親"方法的有效性,研究團隊設計了一系列實驗,旨在回答以下問題:

研究團隊通過一系列實驗,全面評估了ACDC方法的性能和潛力。他們探討了ACDC從單張RGB圖像生成高質量數字表親的能力,特別關注其捕捉原始場景語義和空間細節的準確性。

同時,團隊比較了數字表親和數字孿生在策略訓練方面的效果,既在原始環境中進行評估,也測試了在分佈外設置中的表現,以驗證數字表親訓練策略的穩健性和適應能力。

此外,研究還着重考察了這些策略實現零樣本從模擬到現實遷移的可能性。

場景重建質量評估

首先,研究者們對ACDC生成的場景進行了定量和定性評估。結果顯示,ACDC在多個指標上都取得了令人滿意的表現:

ACDC在真實到虛擬場景轉換中的表現通過這些指標得到了量化。值得注意的是,系統能爲同一場景生成多個不同的數字表親版本。

基於這些全面的評估結果,研究團隊有充分理由得出積極結論:ACDC確實展現了出色的能力,能夠從單一RGB圖像出發,創建保留原始場景語義和空間特徵的數字表親。這些虛擬複製品不僅在物體識別上表現出色,還能準確還原其在場景中的位置和尺寸。

這些數據表明,ACDC能夠準確捕捉輸入場景中的語義和空間信息,並生成高質量的數字表親模型。

sim2sim策略學習

爲了驗證數字表親在策略學習中的效果,研究團隊在三個典型任務上進行了對比實驗:開門、打開抽屜和收起碗。實驗結果表明:

1、在數字表親上訓練的策略通常可以匹配,甚至優於數字孿生的表現。

2、隨着測試環境與訓練環境差異的增大,數字表親訓練的策略展現出更強的魯棒性。3、簡單的領域隨機化(All Assets)策略效果較差,說明"數字表親"方法的優勢。

這些結果證實了數字表親在保持分佈內性能的同時,還能提供更好的分佈外泛化能力。

sim2real策略遷移

研究團隊進行了深入的實驗評估,比較了基於數字孿生和數字表親的策略在真實世界中的零樣本表現。實驗任務設定爲開啓宜家櫃門,以成功率作爲關鍵評估指標。

爲確保結果的可靠性,模擬環境中進行了超過50次的測試,而在真實環境中則完成了20多次的驗證。

real2sim2real全流程驗證

在機器人學習領域,無論採用數字孿生還是數字表親技術,最終的檢驗標準始終是真實世界的應用表現。基於這一理念,研究團隊在實驗的收官階段選擇了一個未經預設的真實廚房環境,對ACDC的完整流程和自動化策略學習框架進行了全面的端到端測試。

經過在數字表親環境中的針對性訓練後,機器人成功完成了開啓廚房櫥櫃的任務,有力證明了ACDC方法在真實場景中的適用性和有效性。爲了直觀展示這一突破,研究團隊提供了一個演示視頻,展示了數字表親的全自動生成過程。

實驗證明,零樣本從模擬到現實(sim2real)的策略遷移實驗取得了顯著成果。僅僅依靠從四個生成的數字表親中學習的策略,就能直接應用於相應的真實廚房場景,實現了無縫遷移。

基於數字表親訓練的策略展現出了多方面的優勢:首先,在原始分佈上,其性能與基於數字孿生訓練的策略相當;其次,在面對分佈外場景時,表現出了更強的適應能力和魯棒性;最後,也是最關鍵的,這些策略成功實現了從模擬到現實的零樣本遷移,無需額外調整就能在真實環境中有效運作。

這些成果不僅驗證了ACDC方法的實用價值,還爲機器人學習在複雜、多變的真實環境中的應用開闢了新的可能性。

▍結論與展望

通過一系列全面的實驗,李飛飛教授團隊的研究得出了以下重要結論:

1、ACDC能夠快速、自動地生成與單張真實世界RGB圖像對應的交互式數字表親場景。2、在數字表親上訓練的策略展現出更強的魯棒性,特別是在分佈外場景中。3、數字表親訓練的策略在領域內性能上與數字孿生相當,但在領域外泛化能力上表現更優。4、數字表親方法實現了高效的零樣本sim2real策略遷移。

然而,研究團隊也指出了當前方法存在的一些侷限性,如在處理高頻深度信息、遮擋物體和特殊語義類別時可能遇到困難。這些問題爲未來的研究指明瞭方向。

總體來說,李飛飛教授團隊提出的“數字表親”技術爲機器人學習領域帶來了新的思路。這項技術不僅對學術研究具有重要意義,也爲機器人技術的實際應用開闢了新的可能性。業界將繼續關注這一技術的發展,期待它帶來更多創新和突破。