當前位置: 華文世界 > 科技

如何從零開始跨入大熱賽道:人形機器人技術全梳理

2024-08-28科技

近期,星塵智能推出的人形機器人 Astribot S1 在國內外的社交媒體平台引發了不少的熱議。Astribot S1 一口氣展示了多個生活化技能,包括彈琴、泡功夫茶、烹飪華夫餅,以及練習詠春拳。

以泡功夫茶為例,泡茶屬於繁瑣的長序列任務,涉及洗茶、沖泡、倒茶、分茶等多個環節,且每個環節要用多種不同工具。Astribot S1 需要規劃出正確的步驟,判斷出各個環節使用哪些工具,同時還要抓握一系列完全不同的物品,包括陶瓷、金屬、木、茶葉等不同材質以及不同形狀的碗、盞、壺、杯。Astribot S1 因其流暢的動作規劃、執行以及在日常生活中解決實際任務引發了包括 Figure CEO 在內的多位大佬的關註轉發。

人形機器人賽道近期迎來了活躍期。前有矽谷的創企 Figure 釋出了新一代人形機器人產品 Figure 02,後有星塵智能推出人形機器人 Astribot S1,隨後,智元機器人也推出了其第二代人形機器人,包括互動服務機器人「遠征 A2」、柔性智造機器人「遠征 A2-W」、多載特種機器人「遠征 A2-Max」等 5 款機器人產品。宇樹科技也宣布其人形機器人 G1 進入大規模量產階段。

從早期主要套用在工業制造、物流倉庫用於解決重復性、結構性工作的工廠機器人,到現在旨在護理、陪伴等實際生活場景發揮作用的家用、服務型的商用人形機器人,人形機器人正朝著通用性、智能化快速叠代。

目前,對於人形機器人的定義尚未統一,一般認為是具有類人的外觀、感知、決策、行為和互動能力,可以在生活、工作場景內如人類一般完成外界感知、自主運動、行為互動等一系列任務的機器人。在 AI 大模型等技術的賦能下,人形機器人不僅在外形和行為上與人類相似,更具有強大智能、思維和類人的語言能力。 人形機器人作為 AI 套用的最終極形態,而通用人形機器人一旦實作技術突破及商業化,將對多個行業產生顛覆性影響並開啟全新的套用場景和啟用潛在市場。 頂級投行機構高盛曾預測,2035 年,全球人形機器人市場規模有望達到 1540 億美元。

而人形機器人的研發是一項難度系數極高的技術工程,涉及力學 、機械工程學 、電子學 、電腦科學和自動控制等多方面技術。 本篇解讀從人形機器人的發展歷程、背後的關鍵技術結構/原理、產品代際變化以及當前產業情況等方面介紹,試圖透過一文為想要了解人形機器人領域的 AI 從業者全面介紹、快速理清其中的關鍵脈絡。

解讀要點

為什麽說人形機器人是 AI 的終極套用形態?人形機器人賽道的整體情況如何?

為什麽人形機器人還「不好用」?有哪些行業共性難點?

人形機器人背後的底層技術/原理是什麽?

人形機器人賽道面臨著哪些關鍵難題?

為什麽「基礎模型 +人形機器人」,讓人形機器人更像「人」

01 多方入局:人形機器人賽道「卷」到什麽程度了?

人形機器人的定義是具有類人的外觀、感知、決策、行為和互動能力,可以在生活、工作場景內如人類一般完成外界感知、自主運動、行為互動等一系列任務的機器人。簡單來說, 人形機器人需要達到用其「身體」認知世界,更接近物理世界的實際情況,同時更有效地決策和執行任務,即「做成事情」,這也是關鍵。

按照國際機器人聯合會(IFR)的分類,機器人可分為工業機器人和服務機器人。按照套用場景來分,則包括教育型人形機器人、娛樂型人形機器人、服務型人形機器人、工業型人形機器人和通用型人形機器人等。

從驅動角度來看,人形機器人分為雙足(Bipedal)和輪式(Wheeled)兩種。雙足機器人模仿人類行走方式,在不平坦的地形上更具靈活性和適應力;輪式機器人在平坦或預定軌域上執行時,穩定性較好,控制相對簡單,工廠、倉庫等環境使用。

盡管人形機器人的能力、商業化尚處於較為早期的階段,但人形機器人的發展歷程已長達近百年。1927 年,美國西屋公司制造了世界上第一台人形機器人「Televox」。 追溯人形機器人的發展歷程,大致可分為三個階段。

① 早期發展階段:這個階段的人形機器人實作了關節驅動,能夠根據指令完成特定工作,有一定智力水平。1972 年,日本早稻田大學的加藤一郎教授帶領團隊率先解決了人形機器人的雙足行走問題,並研發出世界首款全尺寸人形智能機器人 WABOT-1,為其配置了機械手&人工視覺&聽力裝置;

② 系統高度整合發展階段:隨著傳感、AI 等技術發展,人形機器人在智能化人機互動、運動控制等方面得到一定進步,開啟商業化方向。2000 年,本田推出能夠跳躍的人形機器人 ASIMO,人形機器人發展逐步成熟;Aldebaran Robotics 推出智能教學雙足人形機器人 NAO,可以透過現成的指令塊進行視覺化編程,實作聽、說、看和人進行互動,被廣泛套用於學術領域;

③ 高動態運動發展階段:這一階段,機器人的「自主」功能被逐步開發,包括自主理解、 自主推斷、自主決策、自主行動等。具有代表性的機器人產品包括,2013 年 Boston Dynamics 推出的人形機器人 Atlas、2018 年優必選推出的第一代大型雙足仿人服務機器人 Walker、2020 年美國敏捷機器人公司推出第一款商用化出售的機器人 Digit、2021 年英國 Engineered Arts 公司推出的最接近人類面部表情的機器人 Ameca、以及 2022 年特斯拉推出人形機器人 Optimus。

從產業來看,人形機器人產業鏈分為上中下遊三大部份。上遊是原材料&零部件生產, 核心零部件在人形機器人的整體成本中占比最高,約占 60-70%,且技術難度大,軟件和硬件環節均具備較高的壁壘 ;中遊是人形機器人制造商;下遊為場景套用,例如,特斯拉機器人制造後或將率先套用於汽車裝配工序。

目前,由於人形機器人的核心零部件供應不足,供應鏈尚不成熟,人形機器人公司除研發、制造機器人,通常還要設計核心零部件。因此,更嚴謹地表述,原材料&零部件生產通常是上、中遊環節。在中遊的人形機器人公司中,較為關鍵的玩家,國內包括優必選、達闥科技、宇樹科技、小米、 追覓科技、智元機器人、傅立葉智能、星塵智能等;國外包括波士頓動力、Figure、MenteeBot、特斯拉、Engineered Arts、Apptronik 等。

從市場來看,2024 年開年以來,人形機器人領域快速發展。據 Statista 最新報告,2024 年,全球 AI 機器人市場規模將超過 190 億美元,較 2023 年市場規模增長近 30%。同時,人形機器人賽道受資本青睞,據【中國電子報】不完全統計數據,2024 年上半年全球人形機器人領域融資事件超 22 起,融資金額已超過 70 億元。其中,Figure AI 融資 6.75 億美元;宇樹科技完成近 10 億元人民幣 B2 輪融資;銀河通用機器人完成 7 億元的天使輪融資。

雖然人形機器人公司融資呈火熱之態, 但人形機器人領域目前仍處在較為早期的階段,面臨著場景泛化困難、核心零部件供應鏈不成熟、難以量產、商業化等難題。

02 人形機器人為什麽還「不好用」?有哪些行業共性難點?

2024 年以來,陸續推出了人形機器人 Figure 02、Unitree G1、電動版 Atlas 等,從各家釋出的展示 demo 及能力來看,在方向上趨於實作更通用性、互動化,能夠執行復雜的動作以及精細的運動控制。

我們期待人形機器人的「ChatGPT 時刻」到來,對於雄心勃勃人形機器人公司們, 背後仍有三座大山待翻越:泛化能力不足、核心零部件供應不足及成本高、量產/商業化困難。

最大的難題:泛化能力不足

目前, 人形機器人面臨的最大難題即如何實作場景泛化,接近「通用性」。 機器人系統往往難以準確地感知和理解其環境,沒法實作對不同場景的充分泛化,機器人無法將在一個任務上的訓練成果泛化到另一個任務,從而進一步限制其在真實世界中的實用性。同時,由於機器人硬件不同,將模型遷移用於不同形態的機器人也很困難。 目前,業內的一種做法趨勢是透過將基礎模型用於機器人,可以部份地解決泛化問題。

泛化控制能力差的背後,是訓練數據量的缺乏。 具身智能一般包括四類數據,在真實世界中有三種。數據體量最大的是人做事情的影片和圖片數據,其次是在真實世界透過遙控器方式去遙控機器人產生的遙運算元據,再次是機器人靠自我 policy 在環境中測試或者是進行強化學習回傳的數據。但人類收集數據的成本較高,同時大規模收集數據還有操作復雜,安全隱患,數據量不足等一系列問題。 另一種是合成數據,在模擬環境中生成合成數據,這是目前解決人形機器人訓練數據的一大方向。 但合成數據也存在局限性,尤其是在物體的多樣性方面,使機器人所學到的技能難以直接用於真實世界情況。

上遊供應鏈不成熟:既要研發技術也要設計核心零部件

在硬件生產方面,核心零部件的供應不足是一大難題。由於人形機器人的研發還出於 0-1 的研發階段,因此其核心零部件的供應鏈尚不成熟,核心零部件沒有統一的標準。因此, 人形機器人公司不僅需要研發、制造機器人,同時還要涉及核心零部件。 馬斯克曾公開表示,「盡管世界上有很多電機供應商,但沒有一種電機適用於人形機器人,也沒有一種齒輪箱符合我們的尺寸需求。」

同時, 核心零部件的成本高昂也是一大問題。 在人形機器人核心零部件中,技術難度最高分別是減速器、伺服系統和控制器,約占總體成本的 60-70%。

客戶難以買單,何時量產?

人形機器人沒法實作對不同場景的充分泛化以及核心零部件等硬件成本高昂進一步導致了人形機器人的量產和商業化困難。人形機器人的價格一直高居不下,盡管在今年宇樹科技釋出了 售價 9.9 萬元人形機器人 G1Unitree G1,將價格戰打到了 10 萬以內,但價格對於使用者市場來說,仍不低。

而量產規模反過來影響著人形機器人的成本。 據【2024 年中國人形機器人行業研究報告】,人形機器人按量產規模不同,降本大致可劃分為三個階段:小批次千台量級生產,降本 20%-30%至約 10 萬美元;萬台級別降本 50%至 5 萬美元;數十萬至百萬台大規模量產,降本 70%-80%至 2-3 萬美元。

03 距離人形機器人「正式上崗」,還需要哪些技術關要過?

人形機器人技術,主要分為硬件和軟件兩個方面。

在硬件方面,伺服電機、減速器、控制器、傳感器和電池五類部件是人形機器人運動的基礎。

① 伺服電機是人形機器人的執行機構,像是人形機器人的「肌肉」,響應大腦的指令,精準地控制每一個動作。因此,伺服電機的效能直接影響人形機器人的運動精度和速度;

② 減速器是連線伺服電機和關節的部件,將伺服電機的高速旋轉轉化為關節所需的大扭矩。透過調整傳動比,減速器賦予了機器人關節更大的力量,幫助其在舉起重物或精細操作時更加穩定;

③ 控制器:控制器是人形機器人的「大腦」,負責接收傳感器數據、計算控制指令並行送給伺服電機。控制器的效能直接影響人形機器人的運動協調性和穩定性。

④ 傳感器:傳感器是人形機器人的「眼睛和耳朵」,可以感知周圍環境和自身狀態。常見的傳感器包括視覺傳感器、聽覺傳感器、觸覺傳感器、力傳感器等;

⑤ 電池:電池是人形機器人的動力源,為機器人提供電能。

在軟件方面,傳統的機器人系統主要由感知(Perception)、決策制定與規劃(Decision-making and Planning)、動作生成(Action Generation)三個核心模組構成。涉及運動控制演算法、環境感知、物體辨識、自主導航等相關技術。

① 感知(Perception)模組類似於人類的「五官」,包含內部傳感器和外部傳感器。內部傳感器主要用來檢測機器人本身的狀態,為機器人的運動控制提供必要的本體狀態資訊;外部傳感器則用來感知機器人所處的工作環境或工作狀況資訊,使機器人的動作適應外界情況的變化

② 決策制定與規劃模組類似人類的「大小腦」,是機器人的指揮中樞。這部份將在下邊 AI 技術作為人形機器人的「大腦」詳細展開介紹。

③ 動作生成模組類似人類的「肢體」,負責執行控制系統制定的操作。

這裏需要著重展開介紹的是, LLM 等 AI 技術作為人形機器人的「大腦」,是最為核心的關鍵技術。 根據工信部印發的【人形機器人創新發展指導意見】, 將打造人形機器人「大腦」和「小腦」 列為了所需突破的關鍵技術。 開發基於人工智能大模型的人形機器人「大腦」,增強環境感知、行為控制、人機互動能力,推動雲端和邊緣端智能協同部署;開發控制人形機器人運動的「小腦」,搭建運動控制演算法庫,建立網絡控制系統架構。

簡單來說, 把感知和決策認為是大腦,對本體或肢體進行控制生成動作認為是機器人的小腦。 理想情況下的通用人形機器人,需要機器人透過「大腦」理解現實世界和進行「要做什麽事情」的決策之後,透過小腦大模型去泛化,根據任務去驅使身體產生關節電機扭矩或者是關節位置變化,從而把事情幹成。 目前的瓶頸在於人形機器人「小腦」無法達到通用性 ......

訂閱機器之心Pro會員通訊 👇 ,檢視完整解讀