「十八金剛」大閱兵，中國機器人走到哪一步了？

2024-07-11科技

「人形機器人太卷了！」2024年世界人工智慧大會的展廳裏，時不時就會聽到從業者這樣的感嘆。

大模型的概念才火了一年多，很多人便迫不及待地把目光投向了人形機器人，視之為通往AGI（通用人工智慧）的必由之路。

去年的人工智慧大會上，人形機器人還難覓蹤影，但是到了今年，眾多機器人企業已然占據了展會的半壁江山。展館入口處「十八金剛」的集體亮相，更是吸引大量觀眾駐足。

不過，相比於外界熱炒的「具身智慧元年」，從業者的態度大都冷靜得多。在多位專家看來，具身智慧的訓練難度，要遠遠大於大語言模型。而人形機器人的落地套用，目前也仍然局限於較為單純的工業場景。

國產機器人本領如何？

除了數量極多之外，今年參展的國產機器人型別也相當多樣，既有與真人身高相仿的雙足機器人，也有側重負重能力的外骨骼，以及輪式機器人、機器狗等。

這款極其逼真的人臉機器人，顯然是為了克服「恐怖谷效應」。

在展廳內，不少機器人也現場進行了能力展示。但是平心而論，它們的運動能力相比於過去幾年並沒有質的提升。

來自宇樹科技的這款機器狗，能夠現場表現空翻等技巧，引發陣陣驚呼。

但我們在現場也看到，有些品牌的機器狗在面對稍微復雜的場景，例如上下台階時，偶爾也會失誤。

對於雙足機器人來說，受限於運動能力，下台階的步伐與真人存在明顯差異。

經典的腳踢機器人環節，工作人員的力道也較為溫柔。

客觀來說，目前人形機器人與真人還有相當大的差距，很難說有什麽實際的套用場景。即使早已名聲在外的特斯拉「擎天柱」（Optimus）機器人，此次也只做了靜態展示。

而真正體現出技術進步的，更多還是套用於工業場景的機械臂。

例如，穹徹智慧的機器人，這幾天給不少觀眾餵了黃瓜。

給黃瓜削皮、疊衣服，這些技能的關鍵在於機器人對於空間的理解和力度的拿捏。尤其是疊衣服，這件對於人來說平平無奇的小事，至今仍然是機器人面臨的高難挑戰。

由於衣服是柔性物體，尤其揉成一團之後相當於無數多個面的多面體，機器人能夠面對隨機場景，自主判斷折疊的方向和力度，體現了深度學習技術的前沿進展。

穹徹智慧CEO、上海交大電腦系的盧策吾教授，還展示了用這款機器人刮胡子的視訊，令不少專業觀眾印象深刻。

銀河通用機器人(GALBOT)也在現場演示了抓取任意形狀物體的能力。據介紹，銀河通用的機器人今年有望與美團合作，部署到無人藥店等實際場景中。

物理世界的訓練難題

讓機器人學會刮胡子，意義有多大？答案取決於你對機器人抱有多大的期望。

從本質上來講，這體現了機器人對於物理定律的掌握，這是當前大語言模型很難做到的。這也是為什麽具身智慧被視為通往AGI的必經之路。

盧策吾教授關於柔性抓取的論文，曾獲得機器人領域的國際頂會RSS 的最佳系統論文提名，這是中國團隊歷史上首次獲得這一成績。

可以說，刮胡子這件事已經代表了中國和全球機器人領域的領先水平。在工業場景，穹徹智慧正與新希望、海天等企業合作，將類似能力用於食材加工。

但如果以AGI為標準，當下的機器人還差得很遠。

與AGI的區別在於，像抓取、疊衣服、刮胡子這樣的技能，被穹徹智慧稱為「原子技能」，而每一項原子技能都需要單獨訓練。

據穹徹智慧現場工作人員介紹，一項原子技能的訓練，需要先由人工借助VR技術，遠端操作機械臂完成重復任務，積累一定數據後，機械臂才能透過深度學習獲得泛化能力。

這意味著，每一項原子技能的訓練，都要額外花費人力和時間。這顯然算不上是通用智慧。

目前，穹徹智慧正致力於建立更大的原子技能庫AnySkill。盧策吾教授指出，當統一模型具備20個通用技能時，可解鎖200個商業化任務，100個通用技能則可以解鎖10000個商業化任務。

但無論能掌握多少技能，只要技能還需要單獨訓練，AGI就無從談起。

那麽想要透過具身智慧達到AGI，難度究竟有多大？

現在人們已經知道，人工智慧產生的基礎是scaling law（尺度定律），也就是說，參數量、訓練數據和算力的持續提升會帶來模型效能的提升，最終帶來湧現。

相比於大語言模型可以使用全網的文本、影像數據，以及動輒十億、百億級別的參數量，目前機器人的訓練規模還非常小。

有業內人士指出，早在2022年，谷歌就推出了機器人模型RT-1，能夠執行700多個任務，成本是用13台機器人，在17個月中收集13萬條數據。

更重要的是，具身智慧所需要的數據是物理世界中的視覺-控制數據，相比於文本數據，獲取成本極高。

人們最初獲取數據是利用相機拍攝，後來發展到相機陣列：

再後來甚至是這樣的：

盧策吾教授認為，如果說自動駕駛所需的訓練數據是2D的，具身智慧所需要的數據則是80D，空間不確定性更是自動駕駛數據的10000倍量級。

此外，與自動駕駛類似，具身智慧需要的是多模態數據，除了視覺感知之外，更多訓練者開始引入雷射雷達。

上海科技大學的虞晶怡教授團隊，還使用了陀螺儀來記錄運動數據，以解決超大場景的感知難題。虞晶怡指出，想要獲取足夠多的數據，未來或許需要在每個人的衣服中都植入微型陀螺儀，由此產生的成本同樣不可忽視。

物理世界中數據來源的難題，成為本屆人工智慧大會上行業人士探討的焦點。如果不能跨越這道門檻，具身智慧的scaling law就無從談起。

通往AGI之路

為了應對現實世界的數據難題，研究者也在做出新的嘗試。

盧策吾團隊的思路是將數據簡化。他指出，人腦在進行決策的時候，其實也不需要用到非常龐大、精準的感知數據，而是下意識做出一個判斷，只要大致趨勢正確就可以，後面隨時調整。

因此，他們讓數據回歸到與自動駕駛類似的點陣雲，極大壓縮了影像體積，並引入力量的維度，建立力位混合的決策，使得數據復雜性大大下降。

此外，用仿真數據替代真實數據，能夠大大降低數據成本。

銀河通用創始人王鶴認為，當下真正可以實作規模化量產的數據，就是合成數據。過去幾年間，王鶴團隊建立起從物體、傳感器仿真到數據標簽生成的全方位合成方法，先以合成數據進行訓練，再向真實世界遷移。

王鶴指出，以機器人靈巧手抓取為例，當訓練量為10萬次時，抓取成功率僅為58%，而十億次訓練可以做到86%的成功率。依托十億級別的訓練，銀河通用機器人做到了對透明物體的抓取能力，而這樣的訓練量在現實世界中是無法做到的。

虞晶怡教授則展示了只用一張圖片，就能生成物體三維模型的能力，這同樣為仿真訓練提供了便利。

除了構建仿真數據，開源合作也是擴大數據資源的有效方式。機器人領域的「國家隊」——國家地方共建人形機器人創新中心在此次人工智慧大會上釋出了國內首款開源人形機器人「青龍」，並宣布將建立對標谷歌Robot Farm的機器人訓練場，目標在2027年部署超過1000台機器人。

盡管取得種種進展，但業內人士仍然強調，當下不宜對具身智慧抱有不切實際的期望。

谷歌DeepMind執行長哈薩比斯近日表示，盡管目前的人工智慧可以寫作、畫畫、創作音樂，但以通用智慧的標準來說，仍然沒有達到家貓的水平。

梅卡曼德創始人邵天蘭也直言，目前具身智慧僅僅相當於蜥蜴的水平，還沒有走出「二疊紀」。

邵天蘭還談到，對於AGI，人類只是有了一些零散的感覺，但很難說真正找到方向，人形機器人也未必是最優的路徑。他指出，人類並不一定是很好的模仿物件，比如每個人拿筷子、跑步的姿勢也各不一樣，也會有一些缺陷，AI也可以在實踐中找到自己的方式，未必一定要像人。事實上，AI在圍棋上也只是以人類為拐杖，但最終拋棄了人類的思維方式。

優艾智合創始人張朝輝則提醒，認為機器人可以先在工業場景落地，然後過渡到通用智慧的想法可能是錯誤的。因為工業領域要求的是高效率、低成本，但是通用智慧的訓練與工業要求背道而馳。

因此，多位行業專家都表示，要警惕當下具身智慧過熱的風險。邵天蘭指出，在過去十多年中，機器人行業已經經歷了多次起落，如果不專業的資本盲目進入，對行業發展未必是一件好事。