當前位置: 華文世界 > 科技

全球首篇!調研近400篇文獻,鵬城實驗室&中大深度解析具身智能

2024-07-27科技
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:[email protected][email protected]

具身智能是實作通用人工智能的必經之路,其核心是透過智能體與數碼空間和物理世界的互動來完成復雜任務。近年來,多模態大模型和機器人技術得到了長足發展,具身智能成為全球科技和產業競爭的新焦點。然而,目前缺少一篇能夠全面解析具身智能發展現狀的綜述。因此, 鵬城實驗室多智能體與具身智能研究所聯合中山大學 HCP 實驗室的研究人員 ,對具身智能的最新進展進行了全面解析, 推出了多模態大模型時代的全球首篇具身智能綜述。

該綜述調研了近 400 篇文獻,從多個維度對具身智能的研究進行了全面解析。該綜述首先介紹了一些具有代表性的 具身機器人和具身仿真平台 ,深入分析了其研究重點和局限性。接著,透徹解析了四個主要研究內容:1) 具身感知 ,2) 具身互動 ,3) 具身智能體 和 4) 虛擬到現實的遷移 ,這些研究內容涵蓋了最先進的方法、基本範式和全面的數據集。此外,該綜述還探討了數碼空間和物理世界中具身智能體面臨的挑戰,強調其在動態數碼和物理環境中主動互動的重要性。最後,該綜述總結了具身智能的挑戰和局限,並討論了其未來的潛在方向。本綜述希望能夠為具身智能研究提供基礎性參考,並推動相關技術創新。此外,該綜述還在 Github 釋出了具身智能 paper list,相關的論文和程式碼倉庫將持續更新,歡迎關註。

論文地址: https://arxiv.org/pdf/2407.06886

具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 具身智能的前世今生

具身智能的概念最初由艾倫圖靈在 1950 年建立的具身圖靈測試中提出,旨在確定智能體是否能顯示出不僅限於解決虛擬環境(數碼空間)中抽象問題的智能(智能體是具身智能的基礎,存在於數碼空間和物理世界中,並以各種實體的形式具象化,這些實體不僅包括機器人,還包括其他器材。),還能應對物理世界的復雜性和不可預測性。因此,具身智能的發展被視為一條實作通用人工智能的基本途徑。深入探討具身智能的復雜性、評估其當前的發展現狀並思考其未來的發展軌跡顯得尤為重要。如今,具身智能涵蓋了電腦視覺、自然語言處理和機器人技術等多個關鍵技術,其中最具代表性的是 具身感知、具身互動、具身智能體和虛擬到現實的遷移 。在具身任務中,具身智能體必須充分理解語言指令中的人類意圖,積極主動探索周圍環境,全面感知來自虛擬和物理環境的多模態元素,並執行適當的操作以完成復雜任務。多模態模型的快速進展展示了在復雜環境中相較於傳統深度強化學習方法更強的多樣性、靈活性和泛化能力。最先進的視覺編碼器預訓練的視覺表示提供了對物體類別、姿態和幾何形狀的精確估計,使具身模型能夠全面感知復雜和動態的環境。強大的大語言模型使機器人更好地理解人類的語言指令並為具身機器人對齊視覺和語言表示提供了可行的方法。世界模型展示了顯著的模擬能力和對物理定律的良好理解,使具身模型能夠全面理解物理和真實環境。這些進展使具身智能體能夠全面感知復雜環境,自然地與人類互動,並可靠地執行任務。下圖展示了具身智能體的典型架構。

具身智能體框架

在本綜述中,我們對具身智能的當前進展進行了全面概述,包括:(1) 具身機器人 —— 具身智能在物理世界中的硬件方案;(2) 具身仿真平台 —— 高效且安全地訓練具身智能體的數碼空間;(3) 具身感知 —— 主動感知 3D 空間並綜合多種感官模態;(4) 具身互動 —— 有效合理地與環境進行互動甚至改變環境以完成指定任務;(5) 具身智能體 —— 利用多模態大模型理解抽象指令並將其拆分為一系列子任務再逐步完成;(6) 虛擬到現實的遷移 —— 將數碼空間中學習到的技能遷移泛化到物理世界中。下圖展示了具身智能從數碼空間到物理世界所涵蓋的體系框架。本綜述旨在提供具身智能的全面背景知識、研究趨勢和技術見解。

本綜述整體架構

2. 具身機器人

具身智能體積極與物理環境互動,涵蓋了廣泛的具身形態,包括機器人、智能家電、智能眼鏡和自動駕駛車輛等。其中,機器人作為最突出的具身形態之一,備受關註。根據不同的套用場景,機器人被設計成各種形式,以充分利用其硬件特性來完成特定任務。如下圖所示,具身機器人一般可分為:(1)固定基座型機器人,如機械臂,常套用在實驗室自動化合成、教育、工業等領域中;(2)輪式機器人,因高效的機動性而聞名,廣泛套用於物流、倉儲和安全檢查;(3)履帶機器人,具有強大的越野能力和機動性,在農業、建築和災難場景的應對方面顯示出潛力;(4)四足機器人,以其穩定性和適應力而聞名,非常適合復雜地形的探測、救援任務和軍事套用。(5)人形機器人,以其靈巧手為關鍵,在服務業、醫療保健和協作環境等領域廣泛套用。(6)仿生機器人,透過模擬自然生物的有效運動和功能,在復雜和動態的環境中執行任務。

不同形態的具身機器人

3. 具身智能仿真平台

具身智能仿真平台對於具身智能至關重要,因為它們提供了成本效益高的實驗手段,能夠透過模擬潛在的危險場景來確保安全,具有在多樣環境中進行測試的可延伸性,具備快速原型設計能力,能夠為更廣泛的研究群體提供便利,提供用於精確研究的可控環境,生成用於訓練和評估的數據,並提供演算法比較的標準化基準。為了使智能體能夠與環境互動,必須構建一個逼真的模擬環境。這需要考慮環境的物理特性、物件的內容及其相互作用。如下圖所示,本綜述將對兩種仿真平台進行分析:基於底層仿真的通用平台和基於真實場景的仿真平台。

通用仿真平台

基於真實場景的仿真平台

4. 具身感知

未來視覺感知的 「北極星」 是以具身為中心的視覺推理和社會智能。如下圖所示,不同於僅僅辨識影像中的物體,具有具身感知能力的智能體必須在物理世界中移動並與環境互動,這需要對三維空間和動態環境有更透徹的理解。具身感知需要具備視覺感知和推理能力,理解場景中的三維關系,並基於視覺資訊預測和執行復雜任務。該綜述從主動視覺感知、3D 視覺定位、視覺語言導航、非視覺感知(觸覺傳感器)等方面進行介紹。

主動視覺感知框架

5. 具身互動

具身互動指的是智能體在物理或模擬空間中與人類和環境互動的場景。典型的具身互動任務包括具身問答和具身抓取。如下圖所示,在具身問答任務中,智能體需要從第一人稱視角探索環境,以收集回答問題所需的資訊。具有自主探索和決策能力的智能體不僅要考慮采取哪些行動來探索環境,還需決定何時停止探索以回答問題,如下圖所示。

具身問答框架

除了與人類進行問答互動外,具身互動還涉及基於人類指令執行操作,例如抓取和放置物體,從而完成智能體、人類和物體之間的互動。如圖所示,具身抓取需要全面的語意理解、場景感知、決策和穩健的控制規劃。具身抓取方法將傳統的機器人運動學抓取與大型模型(如大語言模型和視覺語言基礎模型)相結合,使智能體能夠在多感官感知下執行抓取任務,包括視覺主動感知、語言理解和推理。

語言引導的互動式抓取框架

6. 具身智能體

智能體被定義為能夠感知環境並采取行動以實作特定目標的自主實體。多模態大模型的最新進展進一步擴大了智能體在實際場景中的套用。當這些基於多模態大模型的智能體被具身化為物理實體時,它們能夠有效地將其能力從虛擬空間轉移到物理世界,從而成為具身智能體。為了使具身智能體在資訊豐富且復雜的現實世界中執行,它們已經被開發出強大的多模態感知、互動和規劃能力。如下圖所示,為了完成任務,具身智能體通常涉及以下過程:

(1)將抽象而復雜的任務分解為具體的子任務,即高層次的具身任務規劃。

(2)透過有效利用具身感知和具身互動模型,或利用基礎模型的策略功能,逐步實施這些子任務,這被稱為低層次的具身行動規劃。

值得註意的是,任務規劃涉及在行動前進行思考,因此通常在數碼空間中考慮。相比之下,行動規劃必須考慮與環境的有效互動,並將這些資訊反饋給任務規劃器以調整任務規劃。因此,對於具身智能體來說,將其能力從數碼空間對齊並推廣到物理世界至關重要。

基於多模態大模型的具身智能體框架

7. 虛擬到現實的遷移

具身智能中的虛擬到現實的遷移(Sim-to-Real adaptation)指的是將模擬環境(數碼空間)中學習到的能力或行為轉移到現實世界(物理世界)中的過程。該過程包括驗證和改進在仿真中開發的演算法、模型和控制策略的有效性,以確保它們在物理環境中表現得穩定可靠。為了實作仿真到現實的適應,具身世界模型、數據收集與訓練方法以及具身控制演算法是三個關鍵要素,下圖展示了五種不同的 Sim-to-Real 範式。

五種虛擬到現實的遷移方案

8. 挑戰與未來發展方向

盡管具身智能發展迅速,但它面臨著一些挑戰,並呈現出令人興奮的未來方向:

(1) 高質素機器人數據集 。獲取足夠的真實世界機器人數據仍然是一個重大挑戰。收集這些數據既耗時又耗費資源。單純依靠模擬數據會加劇仿真到現實的差距問題。建立多樣化的真實世界機器人數據集需要各個機構之間緊密且廣泛的合作。此外,開發更真實和高效的模擬器對於提高模擬數據的質素至關重要。為了構建能夠在機器人領域實作跨場景和跨任務套用的通用具身模型,必須構建大規模數據集,利用高質素的模擬環境數據來輔助真實世界的數據。

(2) 人類示範數據的有效利用 。高效利用人類演示封包括利用人類展示的動作和行為來訓練和改進機器人系統。這個過程包括收集、處理和從大規模、高質素的數據集中學習,其中人類執行機器人需要學習的任務。因此,重要的是有效利用大量非結構化、多標簽和多模態的人類演示數據結合動作標簽數據來訓練具身模型,使其能夠在相對較短的時間內學習各種任務。透過高效利用人類演示數據,機器人系統可以實作更高水平的效能和適應力,使其更能在動態環境中執行復雜任務。

(3) 復雜環境認知 。復雜環境認知是指具身智能體在物理或虛擬環境中感知、理解和導航復雜現實世界環境的能力。對於非結構化的開放環境,目前的工作通常依賴預訓練的 LLM 的任務分解機制,利用廣泛的常識知識進行簡單任務規劃,但缺乏具體場景理解。增強知識轉移和在復雜環境中的泛化能力是至關重要的。一個真正多功能的機器人系統應該能夠理解並執行自然語言指令,跨越各種不同和未見過的場景。這需要開發適應力強且可延伸的具身智能體架構。

(4) 長程任務執行 。執行單個指令通常涉及機器人執行長程任務,例如 「打掃廚房」 這樣的命令,包含重新排列物品、掃地、擦桌子等活動。成功完成這些任務需要機器人能夠規劃並執行一系列低階別動作,且持續較長時間。盡管當前的高級任務規劃器已顯示出初步的成功,但由於缺乏對具身任務的調整,它們在多樣化場景中往往顯得不足。解決這一挑戰需要開發具備強大感知能力和大量常識知識的高效規劃器。

(5) 因果關系發現 。現有的數據驅動的具身智能體基於數據內部的相關性做出決策。然而,這種建模方法無法使模型真正理解知識、行為和環境之間的因果關系,導致策略存在偏差。這使得它們難以在現實世界環境中以可解釋、穩健和可靠的方式執行。因此,具身智能體需要以世界知識為驅動,具備自主的因果推理能力。

(6) 持續學習 。在機器人套用中,持續學習對於在多樣化環境中部署機器人學習策略至關重要,但這一領域仍未被充分探索。雖然一些最新研究已經探討了持續學習的子主題,如增量學習、快速運動適應和人機互動學習,但這些解決方案通常針對單一任務或平台設計,尚未考慮基礎模型。開放的研究問題和可行的方法包括:1) 在最新數據上進行微調時混合不同比例的先前數據分布,以緩解災難性遺忘,2) 從先前分布或課程中開發有效的原型,用於新任務的推理學習,3) 提高線上學習演算法的訓練穩定性和樣本效率,4) 確定將大容量模型無縫整合到控制框架中的原則性方法,可能透過分層學習或慢 - 快控制,實作即時推理。

(7) 統一評估基準 。盡管有許多基準用於評估低階控制策略,但它們在評估技能方面常常存在顯著差異。此外,這些基準中包含的物體和場景通常受到模擬器限制。為了全面評估具身模型,需要使用逼真的模擬器涵蓋多種技能的基準。在高級任務規劃方面,許多基準透過問答任務評估規劃能力。然而,更理想的方法是綜合評估高級任務規劃器和低階控制策略的執行能力,特別是在執行長時間任務和衡量成功率方面,而不僅僅依賴於對規劃器的單獨評估。這種綜合方法能夠更全面地評估具身智能系統的能力。

總之,具身智能使智能體能夠感知、認知並與數碼空間和物理世界中的各種物體互動,顯示了其在實作通用人工智能方面的重要意義。本綜述全面回顧了具身機器人、具身仿真平台、具身感知、具身互動、具身智能體、虛擬到現實的機器人控制以及未來的研究方向,這對沿著促進具身智能的發展具有重要意義。

關於鵬城實驗室多智能體與具身智能研究所

隸屬鵬城實驗室的多智能體與具身智能研究所匯聚了數十名智能科學與機器人領域頂尖青年科學家,依托鵬城雲腦、中國算力網等自主可控 AI 基礎設施,致力於打造多智能體協同與仿真訓練平台、雲端協同具身多模態大模型等通用基礎平台,賦能工業互聯網、社會治理與服務等重大套用需求。