科大訊飛劉聰：大模型加持，人形機器人將跨越三大瓶頸

2024-08-25科技

2024年，AI大模型成為機器人產業新的加速器。

今年3月，ChatGPT4加持的機器人Figure01向外界展示了大模型賦能人形機器人的巨大潛力。Figure01能理解周圍環境，流暢地與人類交談，理解人類的需求並完成具體行動，包括給人類遞蘋果、擺放杯子和盤子等動作。

在8月21日-25日舉辦的2024世界機器人大會上，AI大模型與機器人的融合也是一大熱點。如何將AI大模型能力融入機器人產業，成為業界共識。

當大模型發展到當前階段，它對機器人的發展將起到哪些關鍵價值？

2024世界機器人大會期間，科大訊飛副總裁、研究院院長劉聰向媒體分享了科大訊飛賦能機器人產業的思考與最新進展。

作為國內頭部人工智慧公司，早在2022年1月科大訊飛就提出「訊飛超腦2030計劃」，旨在讓懂知識、會學習、能前進演化的通用人工智慧技術，以機器人的實體形態或虛擬形態能夠進入到每一個家庭。科大訊飛在機器人領域的定位是賦能平台，目前已有420+機器人企業接入星火機器人超腦平台。

大模型，加速人形機器人智慧前進演化

「人形機器人是大模型最好的載體之一。」

劉聰認為，在大模型出現之前，人形機器人在智慧化層面存在不少瓶頸，主要體現在三點：

第一，暫不具備復雜任務的理解和規劃能力；

大模型出現之前，人形機器人更多是基於控制系統的指令，完成對環境的感知與互動執行。

劉聰舉例說，讓機器人把桌上的一個薯片抓起來是可行的。但是如果給機器人一個指令，「把抽屜開啟，把裏面的薯片抓出來，再把抽屜關上」，這種復雜任務暫時還無法完成。

第二，僅能完成特定任務，通用性不足；

此前，機器人更多是在各垂直領域術業有專攻，工業機器人、教育機器人、巡檢機器人、酒店機器人、保潔機器人……大多機器人是為了完成某個特定任務和重復工作而設計。對於人形機器人，開放任務、通用任務仍是難點。

第三，多模感知能力、認知能力仍有待提高。

許多人形機器人在視覺、聽覺、觸覺等感知能力方面仍然存在局限，這限制了其在復雜場景的套用。此外，機器人要做到能夠理解和處理人類語言、情感和意圖，也是一個巨大的挑戰。

與之對應的，大模型將為人形機器人智慧化帶來巨大提升空間，完成理解並規劃任務、感知及行為決策、環境互動與執行的閉環。

「總體來說，原來的機器人更多關註小腦能力，完成的任務相對單一。大模型加入之後，大腦能力顯著提升。」

首先，理解並規劃復雜任務能力提升；

大模型的思維鏈推理能力將顯著提升人形機器人對於復雜任務的理解能力，並提供符合物理世界常識的拆解規劃。

比如，基於思維鏈以及對薯片和抽屜的物理知識，機器人可以為之前舉例的需求規劃路徑：開啟抽屜——抓取薯片——規劃返回路線——將薯片放在桌上。

其次，感知及行為決策能力提升；

將具身感知模型和具身決策模型相結合，可以極大提升人形機器人在真實場景下的多模態感知和理解能力。類似GPT4o展示的即時讀圖、讀物的能力，未來將在人形機器人上實作。

第三，演算法將進一步改進硬體環境互動與執行能力。

基於大模型生成式AI的能力，透過物理世界模擬器可以降低機器人對真實數據的依賴，降低了數據整合的成本。

「此外，我們在仿真過程中的演算法，對機器人硬體結構和參數會形成一些調整的反饋。也就是說，大腦能力反過來也帶動了小腦能力的增強，帶來整體運動、操作能力的增強。有點像我們講的知行合一。」劉聰表示。

生態平台，推動大模型深度賦能機器人

大模型與機器人的技術融合必將帶來產業融合的新模式。在這一過程中，推動大模型深度賦能機器人本體，才能加速產業全鏈條發展。

「在機器人相關領域，科大訊飛的定位是透過平台來賦能生態，透過與產業鏈上下遊合作去打造標桿套用。」 劉聰表示。

「為什麽科大訊飛有能力做這件事？」劉聰將其總結為三大優勢：第一，多年來在人工智慧全棧能力的積累，第二，軟硬體協同能力的積累，第三，產業鏈生態聚合能力。

2023年，在科大訊飛25周年演講中，董事長劉慶峰曾將「推進訊飛超腦2030」計劃，邁向家庭陪伴機器人的萬億市場」，作為大模型時代科大訊飛的五大核心戰略之一。

根據公開資料，「訊飛超腦2030計劃」目前已首批啟動七個計畫，其中與機器人產業直接相關的是： 運動智慧演算法與機器人關鍵軟硬體研發、機器人示範套用及系統研發 兩大方向。

在機器人示範套用及系統研發方面，2023年9月科大訊飛在業界首次實作基於國產化星火大模型在人形機器人上的拉通，實作面向復雜任務的理解、拆解規劃，成功率達到 95%。同時，突破端到端強化學習運動控制及具身智慧核心技術，並成功在人形、四足、輪足機器人上進行實踐套用，整體效能較業界傳統方案提升 30%以上。

機器人示範套用及系統研發方面，科大訊飛推出 星火機器人超腦平台，目前已經支持了業內超過420多家的機器人企業， 包括新松、優必選、宇樹科技、銀河通用智慧、傅立葉智慧、智元機器人、EX Robert等等。而且，星火機器人超腦平台已經匯聚了3.5萬機器人相關開發者。

此外，劉聰認為未來人形機器人與人類的互動將更加多模態、更加自然。

他還劇透了即將在8月30日上線訊飛星火APP的「 星火極速超擬人互動 」功能。這是一款對標GPT4o互動體驗的AI產品，具備極速響應自由打斷、情緒感知、更豐富表達風格等特性。未來，「星火極速超擬人互動」也將賦能更多人形機器人產品。

「我們會先集中力量把語音互動做透，從這樣的框架出發，未來再拓展到多模態的能力其實會更快。而多模態很重要的一個場景就是機器人。」劉聰表示。

目前，人形機器人的套用場景已經拓展到教育、娛樂、家庭服務、展館展廳、影視綜藝、科研高校、倉儲物流和辦公場景等等。然而，較高的硬體成本、端側算力、數據整合成本等都是人形機器人產業化面臨的挑戰。

「從展示到真正好用，我覺得還有一個持續的路要走。人形、雙足等機器人的形態可能不是最重要的。更重要的是要沿著不同場景下對能力的需求，將大腦和小腦結合，並將能力劃分成不同階段，用豐富的機器人產品矩陣來滿足不同的需求。」

文中圖片來自攝圖網

END

本文為「智慧演化論」原創作品。