當前位置: 華文世界 > 科技

李飛飛數碼表兄弟破解機器人訓練難題!零樣本sim2real成功率90%

2024-10-14科技

編輯:編輯部 HXZ

【新智元導讀】在用模擬環境訓練機器人時,所用的數據與真實世界存在著巨大的差異。為此,李飛飛團隊提出「數碼表親」,這種虛擬資產既具備數碼孿生的優勢,還能補足泛化能力的不足,並大大降低了成本。

如何有效地將真實數據擴充套件到模擬數據,進行機器人學習?

最近,李飛飛團隊提出一種「數碼表親」的新方法,可以同時降低真實到模擬生成的成本,同時提高學習的普遍性。

專案主頁:https://digital-cousins.github.io/

論文地址:https://arxiv.org/abs/2410.07408

目前,論文已被CORL2024接收。

你可能會問,什麽是「數碼表親」,有啥用呢?

讓我們把它跟數碼孿生比較一下。

的確,數碼孿生可以準確地對場景進行建模,然而它的生成成本實在太昂貴了,而且還無法提供泛化功能。

而另一方面,數碼表親雖然沒有直接模擬現實世界的對應物,卻仍然能夠捕獲相似的幾何和語意功能。

這樣,它就大大降低了生成類似虛擬環境的成本,同時透過提供類似訓練場景的分布,提高了從模擬到真實域遷移的魯棒性。

共同一作Tianyuan Dai表示,既然有免費的「數碼表親」了,何必再去手工設計數碼孿生?

亮眼的是,「數碼表親」能同時實作——

  • 單幅影像變成互動式場景

  • 全自動(無需註釋)

  • 機器人策略在原始場景中的零樣本部署

  • 簡單拍一張照片,就能搞定了

    模擬數據難題:與現實環境差異過大

    在現實世界中訓練機器人,存在策略不安全、成本高昂、難以擴充套件等問題;相比之下,模擬數據是一種廉價且潛在無限的訓練數據來源。

    然而,模擬數據存在一個難以忽視的問題——與現實環境之間的語意和物理差異。

    這些差異可以透過在數碼孿生中進行訓練來最小化,但數碼孿生作為真實場景的虛擬復制品,同樣成本高昂且無法跨域泛化。

    正是為了解決這些限制,論文提出了「數碼表親」(digital cousion)的概念。

    「數碼表親」是一種虛擬資產或場景,與數碼孿生不同,它不明確模擬現實世界的對應物,但仍然展現類似的幾何和語意功能。

    因此,數碼表親既具備了數碼孿生的優勢,能夠補足現實數據的不足,同時降低了生成類似虛擬環境的成本,並能更好地促進跨域泛化。

    具體而言,論文引入了一種自動建立數碼表親(Automatic Creation of Digital Cousins,ACDC)的新方法,並提出了一個完全自動化的,從真實到模擬再到真實的流程,用於生成互動式場景和訓練策略。

    實驗結果發現,ACDC 生成的數碼表親場景能夠保留幾何和語意功能,訓練出的策略也優於數碼孿生(90% vs. 25%),而且可以透過零樣本學習直接部署在原始場景中。

    方法概述

    與數碼孿生不同,數碼表親並不苛求在所有微小細節上都要重建給定場景,而是專註於保留更高級別的細節,例如空間關系和語意。

    ACDC是一個完全自動化的端到端流程,從單個RGB影像生成完全互動式的模擬場景,由三個連續步驟組成:

    1. 資訊提取:首先,從輸入的RGB影像中提取物件資訊。

    2. 數碼表親匹配:利用第一步提取的資訊,結合預先準備的3D模型資產數據集,為檢測到的每個物件匹配相應的數碼表親。

    3. 場景生成:對選擇的數碼表親進行後處理並編譯在一起,生成一個物理上合理且完全互動式的模擬場景。

    透過這三個步驟,ACDC能夠自動建立與輸入影像語意相似但不完全相同的虛擬場景,為機器人策略訓練提供多樣化的環境。

    策略學習

    構建了一組數碼表親後,就可以這些環境中訓練機器人策略。

    雖然這種方法適用於多種訓練範式,例如強化學習或模仿學習,但本文選擇聚焦於於指令碼演示(scripted demonstrations)的模仿學習,因為這種範式不需要人類演示,與完全自主化的ACDC流程更加適配。

    為了能在模擬環境中自動實作演示的收集,作者首先實施了一組基於樣本的技能,包括Open(開)、 Close(關)、 Pick(拿)和Place(放)四種。

    雖然技能的種類數仍然有限,但已經足夠收集各種日常任務的演示,例如物件重新排列和家具鉸接。

    實驗

    透過實驗,團隊回答了以下研究問題:

  • Q1:ACDC能否生成高質素的數碼表親場景?給定單張RGB影像,ACDC能否捕捉原始場景中固有的高級語意和空間細節?

  • Q2:在原始的環境設定上評估時,在數碼表親上訓練的策略能否匹配數碼孿生的效能?

  • Q3:在分布外設定上評估時,在數碼表親上訓練的策略是否表現出更強的穩健性?

  • Q4:在數碼表親上訓練的策略能否實作零樣本的sim2real策略遷移?

  • 透過ACDC進行場景重建

    首先團隊需要論證的最重要的問題,就是ACDC能生成高質素的數碼表親場景嗎?

    從表格中的數據來看,結果十分令人滿意。

    以下是在sim-to-sim場景中對ABCD場景重建進行的定量和定性評估。

    在sim2sim場景中對ACDC進行場景重建的定量和定性評估

    評估指標包括:

  • 「Scale」:輸入場景中兩個物件邊界框之間的最大距離。

  • 「Cat.」:正確分類物件占場景總物件總數的比例。

  • 「Mod.」:正確建模物件占場景中物件總數的比例。

  • 「L2 Dist.」:輸入和重建場景中邊界框中心間歐幾裏得距離的均值和標準差

  • 「Ori. Diff.」:每個中心對稱物件方向振幅差異的均值和標準差。

  • 「Bbox IoU」:資產3D邊界框的交並比(IoU)。

  • 以下是ACDC實景到模擬場景的重建結果。

    在給定場景中,會顯示多個數碼表親。

    ACDC真實到模擬場景重建結果的定性評估,展示了為給定場景生成的多個數碼表親

    基於這些結果,研究者可以肯定地回答Q1了——

    ACDC確實能夠保留輸入場景的語意和空間細節,從單張RGB影像生成真實世界物件的數碼表親,並能準確定位和縮放以匹配原始場景。

    sim2sim的策略學習

    這部份的實驗主要是為了回答上述研究中的Q2和Q3,在3個任務上分析ACDC訓練策略的能力,包括「開門」、「開啟抽屜」和「收起碗」,每項任務都與數碼孿生設定進行了對比。

    不同設定中的總體成功率如下圖所示。

    可以發現,在數碼表親上訓練的策略通常可以匹配,甚至優於數碼孿生的設定。

    作者假設,由於數碼表親的策略是在不同環境設定的數據上進行訓練的,因此可以覆蓋廣泛的狀態空間,從而很好地推廣到原始數碼孿生設定。

    然而,在另一個極端,針對所有可行資產(All Assets)進行訓練場的策略要比數碼孿生差得多,這表明樸素的領域隨機化並不總是有用的。

    此外,隨著DINO嵌入距離的增加,即評估設定與原始設定的差異逐漸增大,數碼孿生的策略效能通常會出現成比例的顯著下降,但數碼孿生策略整體表現更加穩定,證明了在分布外設定上的魯棒性。

    sim2real的策略學習

    隨後,研究者對數碼孿生和數碼表親策略進行了零樣本現實世界評估。

    任務是給宜家櫃子上開門。

    評估指標就是成功率。

    結果顯示,模擬結果平均超過50次試驗,真實結果平均超過20次試驗。

    real2sim2real的場景生成和策略學習

    無論是數碼孿生還是數碼表親,最終的落腳點還是要在真實環境中對比效能。

    因此實驗的最後,團隊在完全真實(in-the-wild)的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學習框架。

    在經過數碼表親的專門模擬訓練後,機器人可以成功開啟廚房櫥櫃,證明了ACDC方法遷移到真實環境中的有效性。

    以下Demo展示了完全自動化的數碼表親生成過程。

    左右滑動檢視

    零樣本的sim2real策略遷移實驗表明,僅從上述生成的四個數碼表親訓練的模擬策略,可以直接遷移到相應的真實廚房場景。

    基於這些結果,研究者可以肯定地回答Q2、Q3和Q4了——

    使用數碼表親訓練的策略,表現出了與在數碼孿生上訓練策略相當的分布內效能,以及更強的分布外魯棒性,並且可以實作零樣本從模擬到現實的策略遷移。

    失敗案例

    即使ACDC方法表現出了整體上的優越效能,研究團隊也在實驗中觀察到了幾個失敗案例,例如:在開啟櫃子的任務中,機器人未能完全移動到把手所在位置——

    或者移動時錯過把手——

    即使正確找到了把手所在位置,也有可能手滑——

    可以觀察到,ACDC經常在以下幾種情況下陷入困境:

    a. 高頻深度資訊

    b. 遮擋

    c .語意類別差異

    d. 缺乏相應類別的資產

    e. 除「位於頂部」之外的物件關系

    前三個限制,與ACDC的參數化方式直接相關。

    比如對於(a),由於ACDC依賴於相對準確的深度估計,來計算預測的物件3D邊界框,因此不準確的深度圖可能會導致ACDC對物體模型的估計相應較差。

    原生深度傳感器在物體邊界附近可能難以產生準確的讀數,這是因為深度圖在這些區域可能出現不連續性。當物體具有許多精細邊界時(例如植物和柵欄),這個問題會變得更加復雜。

    此外,由於研究者依賴現成的基礎模型(DepthAnything-v2)來預測合成深度圖,因此也承襲了模型自身的一系列限制,例如對特殊物體或在不利的視覺條件下的預測較差。

    結論

    最終,研究者得出了以下結論。

    ACDC是一個全自動化管線,能夠快速生成與單張真實世界RGB影像相對應的完全互動式數碼表親場景。

    研究發現:

    1. 魯棒性

    在這些數碼表親設定上訓練的策略,比在數碼孿生上訓練的策略表現出更強的魯棒性。

    為了進一步檢查數碼表親對樸素域隨機化的相對影響,研究者根據其他基線在 DoorOpening任務上重新執行了sim2sim實驗

    2. 效能對比

  • 領域內效能:數碼表親訓練的策略與數碼孿生訓練的策略相當。

  • 領域外泛化:數碼表親訓練的策略展現出優越的領域外泛化能力。

  • 3. 零樣本學習

    數碼表親訓練的策略能夠實作零樣本從模擬到現實的策略遷移。

    作者介紹

    Tianyuan Dai

    Tianyuan Dai本科畢業於香港科技大學,獲得了電腦科學和數學學士學位,目前在史丹佛攻讀碩士學位,隸屬於史丹佛SVL實驗室(Vision and Learning Lab)和PAIR研究小組(People, AI & Robots Group),由李飛飛指導。

    他的長期願景是將人類對現實世界環境的理解融入到機器人演算法中,使用數據驅動的方法幫助人們完成日常任務;最近研究的重點是開發real2sim2real範式,以實作穩健的操控策略學習(manipulation policy learning)。

    Josiah Wong

    Josiah Wong目前在史丹福大學攻讀機械工程博士學位,導師是李飛飛,同樣在SVL和PAIR組工作。

    此前,他在史丹福大學獲得碩士學位,在加利福尼亞大學聖地牙哥分校獲得學士學位。

    他致力於利用仿真技術來拓展機器人操作能力,目標是推動日常通用機器人的發展,從而改善我們的日常生活。

    參考資料:

    https://x.com/RogerDai1217/status/1844411408374693941