大模型「點睛」 人形機器人加速「前進演化」

2024-08-26科技

一年一度的世界機器人大會是洞察機器人行業前沿的重要視窗。剛剛在京落下帷幕的2024世界機器人大會現場，被視為最適應現實世界的人形機器人站上C位，27台整機同台競技，數量、水準創歷屆之最。

與往屆不同，在大模型「催化」下，從AI點綴、AI介入到AI驅動，從鎖起來的展品，到動起來的產品，再到加速量產的商品，人形機器人正在經歷由局部到整體的系統性前進演化。

從單一靈巧到系統協調

對一款人形機器人說：「我想喝杯拿鐵。」兩只靈巧手的默契配合下，不一會兒，一杯飄著香氣的咖啡就遞到眼前；

對著另一款人形機器人「蓋博特」說一句：「蓋博特，幫我拿一把雨傘。」接到指令的機器人伸出雙臂，立馬行動起來。它面向眾多物品，從中眼手協調地抓取出雨傘，贏得現場喝彩……

這屆大會，人形機器人之間的比拼已不止於單點的技術突破，以及單個「器官」技術參數之間的PK，而是「前進演化」到不同器官之間的配合與協調。

「別看只是簡單的抓取、歸置，這兩個動作背後包含了多種核心技術。」「蓋博特」的研發方、北京銀河通用機器人有限公司聯合創始人姚騰洲向記者介紹。

過去兩年，單只靈巧手的核心技術，已逐步被多家企業掌握。例如，最新釋出的智元機器人已替下去年6個自由度的靈巧手，換上19個自由度的升級版靈巧手。亮相本屆機器人大會的優理奇人形機器人Martian，單只靈巧手的自由度已達到23個。

然而，如今人形機器人手部能力的「鍛造」，已超越單個器官的靈巧，轉向為局部協調的叠代。左右手的協同配合，一方面有賴於擁有像人一樣自由轉動的關節、更多的「自由度」，另一方面還需要多維度的環境感知、更加精密的控制演算法。

「感知觸覺與視觸覺相結合的多觸覺傳感器，配合上持續最佳化的控制演算法，能夠處理更廣泛的物體互動。比如能實作左手捏住紐扣、右手拿針完成穿針引線這樣基於視觸覺位姿估計的精細操作。」智元機器人聯合創始人兼技術長彭誌輝說，當機器人擁有了感知觸覺與視觸覺的能力，它就可以做到對力的精準定位與對力度大小的調節控制。

「我們采用了立體視覺系統，形成了手眼伺服系統、控制系統、運動系統，實作了人形機器人的‘眼到手到’。」北京偉景智能科技有限公司創始人董霄劍說。

從AI「點綴」到AI驅動

人形機器人加速「前進演化」，背後離不開AI這個「驅動器」。

「人形機器人與人工智能的深度融合，構成今年機器人產業的顯著趨勢。」優理奇機器人科技公司創始人兼行政總裁楊豐瑜做出判斷。

早期的機器人僅能執行特定環境的固定指令。「過去，機器人沒有自主的運動控制能力，只能在固定環境完成單一任務，換一個環境後就難以完成。」北京具身智能機器人創新中心有限公司總經理熊友軍說，由於傳統機器人基於Model-Based，即以數學模型求解方程式的方式訓練機器完成任務，當換一個陌生環境後，則需重新列方程式、解方程式，導致機器人的泛化能力很差。

如今AI驅動下，「大腦」與「小腦」的升級，牽引人形機器人不斷「前進演化」。

大模型的一大功能，首先體現在人形機器人「腦力」的升級。熊友軍說，人形機器人的「大腦」以多模態大模型增強人機互動，實作對人類意圖的理解、對復雜外部環境的理解與認知。

科大訊飛人形機器人首席科學家季超舉例說，例如星火大模型在復雜任務拆解、開放場景物體辨識、多模態感知與理解等維度，顯著提升了人形機器人的智能化水平。

「大模型的思維鏈推理能力顯著提升了機器人對於復雜任務的理解能力，並提供了符合物理世界常識的任務拆解與規劃。具身感知模型與具身決策模型的結合，進一步提升了機器人在真實場景下的多模態感知與理解能力。」季超說。

大模型的另一功能，體現在人形機器人「小腦」的增強。「也就是透過演算法驅動人形機器人的運動控制，提升機器人的靈活性與協調性。全方位調動視覺演算法、運動控制演算法、語音演算法、基於狀態記憶的強化模仿學習演算法，實作對機器人的運動控制。」熊友軍說。

大模型對機器人的賦能，還體現在通用性與泛化性的提升。楊豐瑜說：「預訓練大模型，使用大量數據集進行預訓練，能使機器人具備更強的學習能力。遷移學習，意味著大模型能將特定任務上的學習能力遷移到機器人任務上，提高適應力、泛化性。另外是多模態學習，也就是結合視覺、聽覺、觸覺等多種訊號輸入，提升機器人對復雜場景的感知與理解能力，學會‘舉一反三’。」

今年以來，人工智能正深度滲透到人形機器人「前進演化」的各個階段。「一是感知系統，從基本的環境感知到復雜的多模態感知（視覺、聽覺等）。二是運動控制，從站、走到跳、跑，手部從簡單的抓取到完成復雜的精細操作。三是智能決策，從預定義行為到自主學習和決策。最後是互動能力，機器人與人、環境的互動，從單純接受指令，到自然語言的理解，再到情感辨識。」楊豐瑜介紹，前兩者涉及機器人的「小腦」和「軀幹」，後兩者則深入到機器人的「大腦」層面。

大模型驅動下，人形機器人的演進路線什麽樣？「最初是傳統自動化，即人工編排下初步的感知、執行。這一階段的機器無法在不同場景下做遷移，不具備泛化性。第二階段是基於基礎模型的通用原子能力，也就是單個的任務編排，部份實作特定任務的能力遷移。第三階段是數據驅動下的端到端操作，逐步經過認知推理規劃大模型到端到端操作大模型的升級，實作更強的跨任務泛化能力。」彭誌輝歸納。

從產品叠代到量產提速

站在2024世界機器人大會展廳門口，仿佛踏入一個未來世界——機器狗在行人的匆匆腳步間靈活避障、自由穿梭，有的機器人作揖、奔跑，有的機器人炫起球技，有的忙於為參觀者準備可樂、冰激淩，還有機器人原地跳起「科目三」……場景的擴容，開啟人形機器人新的可能。

技術構築價值，落地檢驗價值。最近，隨著多家國產人形機器人技術突破、產品上新、場景重新整理，人形機器人正由小批次出貨加速叩開量產之門。

幾天前，智元機器人剛剛給出量產出貨時間表：作為上海首座人形機器人量產工廠，智元機器人一期工廠已完成產線建設和人員招募，今年10月投產，計劃月產規模達到百台以上、今年出貨量達到300台左右。

隨著加速規模化量產成為多家企業的發力方向，業內正加速挖掘場景，推進大模型與具身智能的融合，以開源等方式完善產業鏈生態，強化成本控制。

例如，北京具身智能機器人創新中心正吸納更多海內外人才，攻克全球人形機器人關鍵共性技術等問題。科大訊飛透過「機器人超腦平台」方案深度連結420家機器人企業、1.5萬名機器人開發者，並與優必選、智元機器人、銀河通用、人形機器人創新中心（上海）等企業、機構探索多模態互動等方案的整合套用，協同推進技術叠代下的商用落地。

然而，人形機器人邁向量產的路上，還有諸多問題待解。

一個問題在於人形機器人的動作還不能像人類一樣迅速敏捷，「前進演化」路上還存在運動的時延問題。「時延問題是一個系統性問題，需要作業系統、架構、算力、通訊機制等方面的協同破解。」熊友軍說。

另一個問題在於人形機器人的能耗問題，尚未實作不間斷地為人類「出工」「出力」。普通的人形機器人處於待機狀態可以維持5至8個小時，如果直立行走僅能維持2至3小時。

「能耗問題，與人形機器人的電池、電機、減速器、重量等參數息息相關。如何在研發高能量密度電池的同時提升電機效率、減輕重量以降低能耗，是接下來需要解決的另一問題。」熊友軍說。

此外，想要讓人形機器人成為真正為人所用的商品，還需不斷提高智能化程度，提升它的「類人」水平。熊友軍認為，人形機器人第一個階段是「形式」類人：外形上長得像人；第二階段是「行式」類人，行走、行動類人；第三階段則是「神式」類人，即透過具身智能大模型，使人形機器人在理解、表達、思考等方面向人類看齊。

來源：經濟參考報

大模型「點睛」 人形機器人加速「前進演化」

大模型「點睛」人形機器人加速「前進演化」