從空間智慧到具身智慧，跨維踐行Sim2Real AI最高效路徑

2024-07-22科技

機器之心釋出

機器之心編輯部

具身智慧狂潮降臨的一年多裏，物理世界與資訊的生產與互動方式發生著革命性變化。

與此同時，一場新的爭奪戰正悄然打響：各大廠商絞盡腦汁，以奪取最有價值的 AI 「燃料」—— 數據。當前，數據匱乏仍是通用具身智慧面前的高墻。縱觀過去三年，在谷歌、輝達、OpenAI 等知名企業對具身智慧的研究中，暫未窺見 Scaling Law 的出現，這與缺少各類數據有關。

如何解決這一根本性痛點？從技術的角度，Sim2Real AI 是一個長期存在的路徑。但由於對消弭 Sim2Real gap 存在「理念型偏差」，學術界和產業界更多地將其視為一個輔助的數據補充手段。

但是否真的如此？

香港中文大學（深圳）終身教授、跨維智慧創始人賈奎透過從學術界到產業界的長期踐行，給出答案：「Sim2Real AI 正是通往具身智慧的最高效路徑。」

從二維視覺到三維視覺、從空間智慧到具身智慧、從科研到產品再到商業落地，賈奎在這一領域已探索了二十余年。近期，在 WAIC 上，進行了一場關於具身智慧如何突破數據困局的對談。

如果用 AI 來試圖理解這次對談，它也許會幫助你概括出這些要點：

當下最火熱的空間智慧和具身智慧的本質是什麽？

以 Scaling Law 範式實作空間與具身智慧的具體涵義是什麽？

哪條路是實作通用具身智慧的最高效路徑？

具身智慧如何從技術到產品再到商業落地？

未來，有哪些能夠突破行業生產範式的想象成真？

當然還有 AI 暫時理解不了的部份 —— 這位科研工作者、創業者，展現出了其堅定信心及歷史使命。

以下為訪談實錄：

建立「世界模型」

觸發機器人「靈性」

問：被譽為「AI 教母」的李飛飛教授首次創業即選擇了「空間智慧」方向，引發了對這一領域的廣泛關註。可以談談您對空間智慧和具身智慧的理解嗎？

賈奎：空間智慧和具身智慧是近年來進入到社會層面備受關註的話題，但其背後的學術研究已經持續了很久。空間智慧（Spatial Intelligence）是一個多維度的概念，通常指個體在三維物理空間及四維時空中的認知和推理能力，包括感知、推理、決策等方面。具身智慧（Embodied Intelligence）則是指智慧系統具備物理形態，並透過這個形態與環境進行互動的智慧。具身智慧不僅僅關註感知，還包括智慧體對環境的行動和反應。就像人類使用雙眼感知世界一樣，具身智慧要求機器人能夠透過多模態傳感器進行感知、互動和決策，形成綜合的空間認知和操作能力。

問：空間智慧與具身智慧的異同點是什麽？

賈奎：就像前面提到的，空間智慧賦予 AI 感知並理解現實世界的能力，而具身智慧則不僅需要空間智慧涉及到的對物體、環境及其他智慧體的感知和認知推理，還進一步涵蓋了機器人操作所需的高級運動規劃和低階運動控制，以及由機器人本體與操作物件互動所定義出的類似人類操作能力的各類機器人「技能」。每一種技能的掌握，意味著機器人可以處理與該技能相關的各種物體物件，而不僅僅是一個特定的、具體的物件。

這些技能包括「子技能」和「原子技能」的集合，形成了一個機器人技能庫，或稱為「技能空間」。具身智慧的本質是學習並泛化這個技能空間，從而實作像人類一樣具備具身內容的通用人工智慧（AGI）。

在具體套用中，空間智慧範圍更廣，可以是附著在機器人身上，也可以脫離機器人，本質上是一個對空間的理解的問題，例如它的重要套用 AR/VR。而具身智慧則主要體現在機器人身上，特別是通用（人形）機器人。

總的來說，空間智慧更多地關註四維時空中的認知和推理能力，而具身智慧則進一步包括了透過物理形態與環境進行直接互動的能力。

問：您為什麽會選擇空間與具身智慧方向創業？

賈奎：可以說我們對這一領域關註得很早，有深厚的歷史沈澱和技術積累。團隊在早期就成立了「幾何感知與智慧實驗室」，當時這一領域尚未被大家所熟知的「大廠」涉足。我們是中國最早將人工智慧技術套用於三維等非歐數據的學者和團隊之一。

我們團隊在幾何深度學習、三維建模、空間感知、機器人套用等方向進行了大量交叉創新研究，取得了一系列代表性成果，包括 Grasp Proposal Networks (NeurIPS 2020), Analytic Marching (ICML 2020/TPAMI 2021), Sparse Steerable Convolution (NeurIPS 2021), 3D AffordanceNet (CVPR 2021), Fantasia3D (ICCV 2023), SAM-6D (CVPR 2024) 等等。

00:37

DexVerse™ 2.0 引入了全新的 4D Mesh 技術，專為動態物理仿真和數據渲染生成而設計，可統一處理剛體、軟體、流體等多種物件。作為引擎的核心表達形式，4D Mesh 將貫穿物理仿真、數據標註生成到大模型訓練的整個流程。

問：您理解的空間與具身智慧的核心理念是什麽？在這條火熱的賽道上，跨維的優勢在哪？

賈奎：我們認為，空間和具身智慧的核心在於建立「世界模型」，讓機器人具備類似人類感知的「靈性」。具體來說，需要建立能夠對空間幾何與物理過程進行精準建模、理解與推理的「世界模型」，使包括視覺、力覺、觸覺等在內的各類機器人傳感器具備人類感知的能力。

在當前的 AI 架構和模型範式下，我們團隊希望透過生成式物理仿真，捕捉人類生存世界的時空四維映像，從而獲取無窮無盡的物理內容數據 —— 這是實作空間與具身智慧的關鍵。

因此，跨維自成立之初就打造了底層自研的 DexVerse™ 空間與具身智慧引擎，能夠針對具體的商業場景，實作「物理仿真 - 數據合成 - 模型訓練」的全鏈條自動化，並基於此形成空間與具身智慧大模型套件及純視覺智慧傳感器，賦予通用機器人提供智慧的大腦和雙眼。

目前，跨維已經在多個商業場景中，實作以 100% 的合成數據，在公釐 / 亞公釐的操作精度要求下，達到 99.9% 以上的任務成功率。

通用空間與具身智慧

離終局還有多遠？

問：您剛剛談及以 Scaling Law 範式實作空間與具身智慧，可以再詳細說說它的具體含義嗎？實作通用空間與具身智慧會比實作大語言模型的通用性更難嗎，難在哪裏？

賈奎：實作通用空間與具身智慧確實比實作大語言模型的通用性更難。以 OpenAI 的 GPT 系列為代表的大語言模型，透過利用海量自然語言文本，並結合「自監督預訓練 + 監督學習 + 強化學習意圖對齊」的方式，實作了自然語言理解任務的零樣本（zero-shot），即通用能力，展示了所謂的 AGI 的曙光。

人類自然語言可以看作是對所生活的宇宙和自然環境經過高度抽象後，提煉出的語意編碼。因此大語言模型直接在抽象層面進行學習和泛化，相對容易一些。

比較而言，空間智慧需要從傳感器獲取的原始訊號中學習，這意味著要跨越從原始數位訊號到人類語意符號之間的「語意鴻溝」。要透過類似 GPT 的 Scaling Law 範式來學習通用智慧，需要大量訓練數據；而空間智慧的訓練數據不僅需要大量，還要對傳感器獲取的原始訊號進行精確標定，以確保其具備絕對物理尺度上的度量，這比從互聯網獲取海量影像文本數據困難得多。

具身智慧更進一步，除了需要從視覺、力覺、觸覺等高維感知訊號中學習通用智慧，其更本質的目標是學習由機器人本體和操作物件共同定義出的機器人「技能空間」。具身智慧的通用性體現在技能空間中的泛化，這增加了對不同範式的學習難度。

問：可以談談空間智慧與具身智慧具體需要哪些多模態大模型能力嗎？

賈奎：空間智慧涉及在三維物理世界的感知、互動、推理、決策等任務，具身智慧進一步要求基於對視覺、力覺、觸覺等空間感知訊號的智慧分析，形成機器人的自主操作技能庫。

因此，需要包括自然語言、力觸視、機器人本體狀態等模態在內的多模態大模型能力。這些多模態能夠在共通的語意、時空及技能空間中「融會貫通」，從而實作像人一樣的空間及具身智慧。

問：在您看來，通用空間與具身智慧離終局還有多遠？

賈奎：目前，以海量數據、大模型和巨大算力為特點的 Scaling Law AI 範式，在通用機器人硬體成熟的前提下，即人形機器人、靈巧手、類人傳感器等核心部件能夠以高價效比方式穩定量產，至少能夠支持空間與具身智慧在多個有邊界和 ROI 合理的商業場景閉環中，形成獨立的商業價值。

具體來說，在工業、物流、商業、家庭等多個場景中，機器人能夠以可泛化的方式完成多種任務。當然，這需要獲取海量具備物理內容的多模態數據，以及支持監督訓練、模仿學習、強化學習等多種學習策略的豐富標註的自動計算。

實作通用具身智慧的最高效路徑

問：之前關註到您在 WAIC 演講中提到「Sim2Real AI 是最高效的具身智慧實作路徑」，可以展開說說嗎？

賈奎：要實作具身智慧，必須考慮數據的性質和目標。具身智慧的目標是讓機器人基於視覺、力覺、觸覺等傳感器訊號，在變化多端的物理世界中實作通用操作能力，就像我們人類每天在日常生活中所做的那樣。

在 Scaling Law AI 範式下，即機器學習模型並無真正的通用智慧或者說泛化性，而是僅僅在學習統計分布及其統計分布中「插值」能力，訓練具身智慧機器人需要獲取大量數據。

這些數據要涵蓋每個機器人技能在所涉及的各種操作情況上，比如從早到晚、春夏秋冬、室內到室外的所有操作情況。如果依賴於機器人數據采集系統或可穿戴裝置，例如大家耳熟能詳的「遙操作」，那麽要采集足夠的數據，首先需要建立一個商業模式，讓使用者在享受服務、享受商業價值的同時，順便幫忙采集數據，但目前並沒有這樣的方式。

相較而言，Sim2Real AI 透過物理仿真和合成數據，可以更高效地覆蓋上述所有變化。這種方法允許在虛擬環境中模擬各種操作物件、環境變化、機器人構型和傳感器變化，並能針對不同商業場景共享底層的物理仿真和數據生成能力。包括剛體、鉸鏈、軟體、流體等在內的任何操作物件，都可以透過精準的物理仿真支持數據生成。

因此，總的來說，雖然利用機器人數據采集系統或可穿戴裝置「遙操作」，可以快速展示一些類人操作動作，但與實作通用機器人所需的具身智慧能力相比，這種方法顯得「南轅北轍」，Sim2Real AI 才是實作目標的最高效路徑。

問：那在這種技術路徑下，如何消弭合成數據與真實數據之間的 GAP？

賈奎：從學術界的角度，Sim2Real AI 是一個長期存在的技術路徑，是實作空間與具身智慧的主流路徑之一。我們團隊也是從學術界起步，在產品和業務落地的過程中，成功地趟出一條獨特道路：能夠在多個場景中以 100% 的合成數據，在公釐 / 亞公釐的精度要求下，實作 99.9% 以上的任務成功率，這在全球範圍內可能都是絕無僅有的。

任何成功都不是偶然的，而是基於對問題的深入理解和系統化解決。從第一性原理出發，思考事物的內蘊，跨維團隊透過簡化復雜問題，層層拆解，找到了有效的解決方案。

簡單的說，以 Sim2Real AI 的方式走通具身智慧，需要對包括：

1）機器人本體仿真、多模態傳感器仿真、不同形態的操作物件仿真以及動態過程仿真；

2）仿真對應的數據和標註渲染生成；

3）具身智慧大模型設計和訓練等在內的環節建立可 Sim2Real 遷移的自動化鏈條，並且至少需要克服以下核心技術門檻：

底層可控的具身性物理仿真

高效多模態大模型訓練與持續學習

有效應對合成與真實數據域差別

低成本海量數位資產獲取

問：那基於您剛剛提及的 Sim2Real AI 技術路徑，跨維有哪些實踐結果？

賈奎：跨維從底層構建了一個包括物理仿真、數據渲染生成、自動標註計算、模型設計與訓練等模組在內的具身智慧引擎 DexVerse™。這個引擎無需研發人員的參與，能夠全鏈條自動化地產生針對具身智慧任務的 AI 模型 SDK，數據生成速度與 AI 模型的訓練叠代速度同頻，從而完全不需要存貯數據，積攢多少條訓練數據也將不再是具身智慧落地的一個量化標準。目前，跨維在多個場景中的軟硬體產品落地都由 DexVerse™ 支撐。

如上圖所示，DexVerse™ 2.0 更進一步：

首先，給定一個邊界清晰的商業場景和機器人硬體構型，DexVerse™ 2.0 能夠利用大語言模型自動拆解所涉及到的機器人技能及子技能。

其次，針對任意一個技能或子技能，DexVerse™ 2.0 能夠自動化地生成仿真所需物件、場景等數位資產，並基於這些資產仿真渲染生成虛擬空間中的機器人操作過程數據條。

緊接著，透過虛擬空間中的數據生成，訓練具身智慧 3D VLA（Vision Language Action）模型。

最後，訓練好的模型可以在選定的商業場景內驅動機器人本體，以通用的方式完成各種機器人技能操作。

透過 DexVerse™ 具身智慧引擎 2.0 全鏈條自動化地進行任務拆解、場景生成、訓練配置生成、模型訓練，並將訓練好的模型匯入真機引導機器人完成小鹿積木拼裝的操作。

視訊連結：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5ca60fb8582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

透過這個全自動化引擎，通用機器人修煉具身智慧技能 / 子技能的飛輪將最高效地轉動起來，推動通用機器人在更多場景實作落地。跨維將與更多產業方合作，開放生態，合作共贏，共同推進中國具身智慧與通用機器人產業高速發展。

問：跨維為什麽選擇自研引擎？跨維 DexVerse™引擎與輝達的 Omniverse™有什麽差異？

賈奎：跨維做具身智慧引擎與輝達的 Omniverse™等引擎的理念是完全不同的。

如果說 Omniverse™是橫向拓展，覆蓋機器人、科學計算、AI for Science 等不同板塊，同時為輝達的 AI 算力產品服務，那麽跨維的 DexVerse™則是端到端垂直打穿，引擎的叠代演進是為實作垂直場景中的具身智慧技能任務服務的。

在當前 Sim2Real AI 仍處於創新驅動產品業務落地的階段，只有依托自研引擎，才能支撐研發過程中從物理仿真、數據渲染生成、自動標註計算、具身智慧模型設計和訓練的各個環節，逐點攻關，掌握 know-how, 才能實作產品在業務場景中的真正落地。

具身智慧商業落地的 L1-L5 之路

問：您認為具身智慧從技術到產品再到商業落地，需要怎樣的實作路徑？

賈奎：具身智慧的本質，是透過學習包含各種可泛化技能的機器人技能庫，賦予各類機器人在不同套用場景中的通用操作能力；因而其商業化落地，必須以工業、農業、商業、個人 / 家庭等一個個有邊界的商業場景為目標，「以終為始」，透過建立獨立商業場景中的機器人通用技能，形成產品價值和商業落地。

技術上，具身智慧必須以 Sim2Real AI 的方式，打通任務理解、數位資產生成、數據仿真生成、AI 模型訓練的自動化鏈條，以最高效的方式實作通用機器人任務學習，並在這個過程中形成適用不同商業場景的軟硬體產品，包括具身智慧 SoCs、智慧傳感器、通用機器人控制器等。

路徑上，具身智慧需要首先賦能機械臂、復合機器人等等相對成熟的硬體本體，並隨著靈巧手、人形機器人等通用本體的成熟量產，進一步提升整體能力，產生更大的商業價值。

問：基於您提出的高通用性具身智慧 L1-L5 五個階段，跨維當前到哪個階段了？

賈奎：跨維基於自研的 DexVerse™具身智慧引擎，已經建立了服務智慧制造、智慧農業等套用場景的場景任務理解、數位資產生成、數據仿真生成、AI 模型訓練等全鏈條能力，並形成了包括智慧視覺傳感器、PickWiz 軟體、復合機器人等具身智慧產品。

目前，跨維已經跑通了「Simulation to Reality」的商業模式，在汽車零部件、3C 制造、新能源、家電、化工、物流等 30 余個行業中落地，合作了包括廣汽、美的、海爾、松下、藍思科技等在內的眾多行業頭部客戶。

參照上圖 L1-L5，跨維已完成具身智慧 L1 階段的發展，正在穩健地邁向 L2 級，這在全球範圍內，都是屈指可數的。

問：您認為具身智慧、人形機器人的終局生態鏈是怎樣的？跨維會做（人形）機器人硬體整機麽？

賈奎：通用機器人終局生態鏈由人形本體廠商、零部件廠商、視觸力等傳感器廠商、具身智慧芯片與方案供應商等組成。跨維 DexVerse™具身智慧引擎在產業鏈去往終態的過程中，在技術路徑、產品形態、場景業務落地等方面將發揮決定性作用，透過 DexVerse™的 Sim2Real AI 全鏈條能力，以終為始，從商業閉環的方式推動具身智慧機器人在硬體構型、傳感器選型、數據模態範式及多模態大模型等方面統一標準。

跨維已形成復合機器人、智慧視覺傳感器、PickWiz 軟體等具身智慧產品，在落地更多商業場景的過程中，跨維將首先賦能相對成熟的移動 / 輪足底盤 + 雙機械臂的具身智慧本體，並最終與人形機器人本體廠商形成合力，實作通用具身智慧的廣泛落地。