當前位置: 華文世界 > 科技

逛完世界機器人大會,投資人說再也不想投人形機器人了

2024-09-02科技

文 | 騰訊科技

作者| 周小燕 郝博陽

編輯|鄭可君

排版|Miziko
本文預計閱讀時長11分鐘

過去一周,我們仿佛能在世界機器人大會上看到全世界的機器人,600余件相關展品幾乎覆蓋了機器人的各條產業鏈。

機器人型別也多得令人眼花繚亂,比如「上躥下跳」的機器狗、整齊劃一「搖曳」的機械臂,還有可以做到不把酒撒出來的「送餐小能手」等。

不論是機器人數量還是參展熱度,人形機器人都堪稱「C位」。據官方表示,這是人形機器人數量最多的一屆大會,而現場幾乎一半的觀眾都集中在人形機器人公司的展台。

這些人形機器人高矮胖瘦各不相同:從僅有110cm的加速前進演化「小巧」型Booster T1,到足有185cm的「壯漢」型青龍機器人一應俱全。每一家機器人的機械臂形態、電池位置,臉部造型,乃至移動方式都風格各異,但他們都在賣力地表演著「絕技」。

論武,它們能打詠春、拳擊、跳「海草舞」,甚至能在有鋼管的地上跑步飄逸;論文,它們會寫毛筆字,還能做菜、洗衣、疊衣。在多個展台上,機器人們顯得一派絕活學盡,就等著進廠打工或是去客戶家服務的高昂姿態。

(星塵智慧Astribot S1跳海草舞)

(逐際動力CL-1上坡)

但一位長期關註人形機器人賽道的投資人逛完展會後,卻對騰訊科技表示:「我一個也不想投了」。

他們目前既不夠有用,又拉不開差距。

比如,工業場景人形機器人,主要任務是做揀選和小範圍的搬運、挪動,但現有的傳統自動化機器人已經有很成熟的方案,再做人形機器人意義不大。而聚焦家用場景的人形機器人主要任務就是烹飪、疊衣服、炒菜,雖然各家機器人在這類場景的完成度有差異,但投資人表示,「你能做到的對手也能做到,並不存在不可逾越的差距,只是時間問題而已」。

經騰訊科技不完全統計,此次大會一共有28家人形機器人公司參展,各家公司產品的服務場景除了科研之外,多數都集中在工業或家用場景。

騰訊科技不完全統計:世界機器人大會參展人形機器人企業一覽表|按首字母排序

從騰訊科技的統計可以看到,這些機器人的機械效能差異不小,比如自由度、峰值扭矩等指標,最多能有5倍差距;單拿移動速度來看,最快的一級能達到7km/h以上,慢的卻只能做到2.5km/h。但在軟體基礎——大模型層面上,各家卻很難拉開大的差距。

而這本應是今年人形機器人的最大亮點。

因為比起特定套用的工業機器人,「人形」這型別的機器人設計其實並不高效。它最大的優勢就在於更能實作在人類社會中的「通用」,即人類不需要為了方便機器人的運轉而特意改造環境,人類的雙手能夠著、雙腿能抵達的地方,人形機器人也可以。

而實作「通用」的關鍵就在於有足夠強的通用模型。

對這位投資人來說,展會內軟體突破有限的人形機器人已讓他感到審美疲勞。「現在能讓我眼前一亮的,大概是真正擁有泛化能力的機器人」,比如一個會拖地的家庭服務機器人,可以不用主人發號指令,就能自己想到主動去房間鋪個床,幹個活。騰訊科技溝通了多位關註機器人賽道的投資人,他們普遍認為,做人形機器人,硬體本體並不存在真正意義上的壁壘,軟體才是難題,因為它決定著人形機器人的泛化能力,只有擁有強大的泛化能力,人形機器人才能在多種任務場景中工作,才能更接近「通用性」。

但通往AGI是一個美好的理想,除了要奔向遠方,也要結合當下的技術條件循序漸進。

雖然今年的人形機器人賽道讓VC們略感失望,但和往年相比,我們發現這個賽道其實也有一些值得關註的新變化。

01

人形機器人的「表情包」執念?

如果未來人形機器人想要實作真正意義上的情感陪伴,它的「臉」和「表情」會變得極為重要。

日本機器人學者、ATR石黑浩特別研究室室長石黑浩認為,「隨著我們接觸到越來越多的機器人,我們可能會逐漸接受栩栩如生的機器人,並在未來依靠它們來滿足我們的護理和其他需求。」

海銀資本創始人王煜全也有類似觀點,他曾對騰訊科技表示,機器人沒有必要像人一樣擁有雙足,但它們可以像人一樣擁有一張能做表情的「臉」,具備這項能力,機器人可以更好地勝任迎賓接待、陪伴這類需要與人類交流的工作。

關於人形機器人做不做「表情」,有兩個派別:「抽象派」和「仿生派」,前者主張用抽象的符號傳遞表情,以表達情感交流,後者主張將臉做得無限逼近真人,希望能和人類一樣,可以透過調動「肌肉」的力量驅動面部表情。

在WRC 2024上,我們觀察到,除了主流的「抽象派」,更多的「仿生派」開始入場,並且這類機器人可以做各種「表情包」。

典型的代表是國內仿生機器人公司EX集團,EX集團去年將「李白」、「杜甫」帶到世界機器人大會,今年又做出來「蘇軾」。

(圖:EX集團仿生機器人「蘇軾」)

此外,和去年相比,今年又多出一家做表情的機器人公司「數位華夏」,它的人形機器人「夏瀾」在現場和觀眾做起了互動:

(圖:數位華夏機器人「夏瀾」)

除此之外,也有很多產品並不講究把「表情」做得多麽細致,有的壓根連「臉」都沒有,還有部份做了「臉」的公司則選擇了籠統的「頭盔」樣式。

仔細留意會發現,不論是國外波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01,還是國內智元新上的「遠征A2」、宇樹公布的新品「G1」、優必選會進廠打工的「Walker S」等,它們都頂著一張相似的「鋼鐵」面龐。

(圖:第一排從左到右 波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01;第二排從左到右:智元「遠征A2」、宇樹G1、優必選Wlaker S)

這些人形機器人面部材質幾乎都使用黑色的玻璃面罩,用LED鑲邊,宇數創始人王興興在WRC 2024之前的交流會上表示,「我對G1的頭部設計很滿意,短時間內不會改變」。

或許其中一個原因是,這類面部本身就是一個螢幕,上面可以出現任何抽象符號,方便組成表情,向人類傳遞情感。

比如,Figure01或Figure02在說話的時候,面部會呈現OpenAI的標誌性符號,雖然算不上真正的表情,但也讓和它交流的人類感受到「你正在認真聽我講話」。

(圖:Figure02)

其實,回溯人形機器人「鼻祖」——第一版波士頓動力機器人「液壓」Atlas的外貌,你會發現,它連基本的「臉」都不存在,更談不上有表情,它的面部看上去有點「糊弄」,只用了幾根略粗的鋼管和帶有兩個孔的器件,簡陋地搭建了一張Atlas的臉。

這可能源於波士頓動力創始人Marc Raiber的一段信念,他曾在接受訪談的時候表示,「能力、靈巧、感知和智力才是機器人的關鍵功能,其它的都不重要。」

(圖:波士頓動力液壓Atlas)

直到2021年,一則液壓Atlas舞蹈視訊「Do You Love Me」爆紅,Marc Raiber才開始認可「仿生」對於人形機器人與人類情感交流的重要性,或許正是這一段淵源,2024年的電動Atlas才擁有了一張「頭盔式」面龐。

這類頭盔式臉龐在審美和功能性上都有一定的作用,比如它們的主色都是「高級黑」,代表著十足的科技感,並且頭盔式的設計可以減少外部環境對傳感器和網路攝影機的損害,如灰塵、碰撞或其他物理損害。更重要的是,它們可以規避「恐怖谷效應」給人帶來的不適感。

「頭盔式」的抽象派十分受歡迎,但仿生派也一直在研究如何將機器人的表情做得更像人,這一領域主要有兩種技術路線:自主式和遠端操控式。自主式機器人透過機器學習和演算法驅動來生成面部表情,而遠端操控式機器人則依賴操作員的指令來模仿其面部表情。

例如,哥倫比亞大學工程學院的創新機器實驗室開發了一款名為Emo的機器人。該機器人采用自我監督學習框架,能夠預測人類的面部表情,甚至可以在一個人微笑前的840毫秒內做出預測,與人類同步微笑。

(論文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724)

而更早的時候,有學者為了更好地練習機器人模仿人類表情,開發出開源機器人Eva,並行表論文解釋了機器人表情驅動的原理。

(論文地址:https://www.sciencedirect.com/science/article/pii/S2468067220300262)

Eva的頭部由面罩驅動機構、下頜、眼睛和頸部四個部份組成,論文中描述,「其中面罩驅動機構采用了12個MG90S伺服電機、兩個用於容納伺服電機的3D打印伺服組、一個客製的矽膠面罩、一個用於支撐面罩的3D打印頭骨以及穿過特氟龍鮑登管的鋼絲。」

(Eva的伺服器組)

這些鋼絲穿過管子,連線到頭骨內的各種伺服電機上,「為了產生面部表情,需要啟動12個伺服電機中的特定子集,從而拉動鋼絲並使面罩變形,以模擬面部肌肉在做表情時如何使皮膚變形。」簡單來說,鋼絲可以透過工作人員發出的指令,組合式地驅動多個伺服電機,將力傳導到面罩上,從而形成機器人的「表情」。

在WRC 2024上,EX機器人CEO李博陽對騰訊科技說道,「EX機器人的面部整合了幾十組自由度,並且透過EX自研的一套系統完成對表情的驅動。同時,開發一套情緒模型,便於機器人進行情感分析,並將其對映到表情上。」

把人形機器人做得無限逼近人類,似乎是一種執念,WRC 2024上的活躍的「仿生派」,正是這一執念的顯化。

02

量產、進廠的機器人,

不為打工為數據

在今年的機器人大會上,人形機器人不光數量大幅提升,這些甚至只是第一代的產品還直接紛紛宣布量產,能夠進廠打工了。他們一路小跑,跟上了前輩特斯拉Optimus的腳步。

稚暉君創立的智元機器人,預計2024年發貨量300 台,其雙足人形機器人10月起量產,年出貨量預計200台。UniX AI的輪式人形機器人Wanda也計劃在9小規模量產,年內預計生產100台左右。在現場,優必選甚至直接搭建了一個工廠場景,去展示他們最新的人形機器人進廠操作的全流程,包括篩查車輛狀況,分類揀取產品以及搬運工作。據他們的工作人員介紹,優必選已經和汽車企業合作,真正開始在廠裏運作了。

(汽車產線上的優必選人形機器人)

但講到機器人的效能時,相關工作人員承認,目前只能達到人類效率的20%-30%,而且電池續航僅有兩個小時。續航短也是業內人形機器人的普遍問題。

這樣水平的機器人量產、進廠,真的是為了工業化落地嗎?並不是。

這就需要再次聊起,上文投資人曾提到的機器人的「泛化」能力,這是需要大量數據的。

那需要多少數據呢?

比如在UniX-AI的月台上,他們裝載了大模型的Wanda機器人一口氣展示了包括洗衣服、疊衣服、制作漢堡、3D清潔等多項任務。這一過程中最令人印象深刻的就是Wanda洗衣服的場景,它首先接受到人類對它的命令,之後自動尋路去尋找臟衣服,並把它投放進洗衣機中。這看起來已經頗具獨立完成全流程任務的能力了。

(UniX-AI的Wanda機器人在展廳演示執行洗衣任務)

但這種泛化很有限。

UniX-AI創始人楊豐瑜對騰訊科技表示,像洗衣服這樣任務級的泛化,這是目前的數據和訓練能夠達成的。但能主動辨識,完成一個模型處理多種任務的泛化功能,目前還需要一定時間。

在整場機器人大會中,我們能看到各種能進行拆分任務的機器人。像優必選會分揀物品的WalkerS,星塵智慧能寫出一手漂亮毛筆字的S1。但真正能實作多工間泛化展示的機器人基本上沒有。

(星塵智慧的S1機器人正在寫字)

他們在固定的展位上做著各種大差不差、非常有限的工作,甚至流程看起來都很程式化。這一時間讓人恍惚,好像回到了大模型到來之前的編程機器人時代。

在機器人大會期間的采訪中,作為RT-X計畫的參與者的Wolfram Burgard教授就認為當下的基礎模型訓練方式有著能效上的巨大問題——它需要太多的算力和數據才能達到泛化的門檻。

他舉了個例子——在RT-X數據集計畫中,雖然他們收集了超過100萬個片段,覆蓋了機器人的500多項技能和在16萬項具體任務上的表現,但當桌子高度稍有不同,RT-2就可能完全無法正確進行任務了。

(RT-X數據集中的數據範例)

這就意味著,我們離真正泛化的具身智慧ChatGPT時刻,可能還差著至少半個互聯網那麽大的數據量。

因此,在這場達成「泛化」的比賽裏,能夠先批次獲得數據的企業才能占據先機。因此獲得有效數據,是很多機器人公司在台下最火熱的戰場。

智元機器人釋出會上,稚輝君就宣布了智元的數據采集計劃。他們預計9月底建成有100台左右機器人的采樣廠,對應150個工人,接下來進入數據量產階段,目標是一個工人1000條數據/天,當前是600條/天。這就已經占據了他們預期「量產」機器人數量的1/3。當然,投入自有報酬,按他們給出的數據,這個數據工廠10天就可以收集到和RT-X數據集一樣大的量級。

智元在機器人大會上展示的數據工廠情況)

而UniX-AI和星塵智慧這些劍指具身智慧實作的後起之秀,也強調自己在數據采集方面的投入。UniX-AI創始人楊豐瑜提到,他們在對機器人的訓練中已經用到了在虛擬環境的模擬訓練,以及視訊采集分析這些「新采集方法」得到的數據。

但據智元透露,目前這些真機采集數據非常貴。即使采用大規模的生產,成本也需要0.4元/條。即使在模擬環境下獲取的仿真數據,也需要真人數據60%-70%的成本。

那怎麽才能更好地、更便宜地收集數據呢?進廠打工也許就是個對雙方都有利的選擇。機器人能獲得一個收集實踐工作相關數據的真實場景,而相關的人力成本可能都能節省下來;相關企業則能獲得智造探索的行業經驗,又可以多一個宣發口徑。

消化了「量產」人形機器人中相當一部份的現實企業,不過是現階段人形機器人的另一個數據工廠罷了。

03

人形機器人也走「親民」路線,

哪裏不對「拆」哪裏

「量產」一直是人形機器人的產業難題,主要原因在於各家關鍵零部件規格不統一、參數要求參差不齊,很難形成標準化。宇樹創始人王興興在WRC 2024前也對騰訊科技說道,「每一家做具身智慧的思路都不一樣,比如機器人的傳感數據應該怎麽采集,要不要觸覺傳感器,末端執行器應該有幾根手指,都不統一」。

盡管行業的路線還在探索,但其實很多公司都在用「模組化」思維做人形機器人,即,人形機器人就像一個「大玩具」,胳膊、機械手、底盤都可以被拆卸和安裝,而在今年的WRC 2024上,模組化設計機器人的路徑被直接呈現了出來,「人形機器人賽道軟硬體標準化程度低,將零部件模組化,其實也是一些公司在初步嘗試做標準化」,一位參加WRC 2024的業內人士對騰訊科技說道。

機器人公司嘗試模組化的主要零部件,聚焦在上臂、靈巧手、雙足,比如星動紀元Star1機器人可拆卸替換底盤,Star1的底部既可以換成雙足也可以做成輪式,「如果有需要,也可以不用底盤,只保留上半身」,星動紀元工作人員說道。

(星動紀元Star1)

而智元機器人的「靈犀X1」機器人主開啟源,電機、夾爪等核心零部件可以實作拆裝。

(智元「靈犀」系列)

但末端執行器的替換,涉及到本體對不同型別夾爪的控制能力,比如,能輕松運作兩指夾爪、三指夾具的本體,未必能夠駕馭好五指靈巧手,「它們所牽涉到的控制能力不是一個級別的」。

04

結語

雖然WRC 2024過後,不少人對人形機器人的套用表示懷疑和失望,在實際場景中連傳統機械臂都比不上,甚至覺得「人不如狗」,但技術的進步是循序漸進的,機器人的泛化和智慧也並非一蹴而就,在這中間可能會湧現很多「中間態」的產品型別。

這些「中間態」產品在發展過程中,可能會出現一些脫離正常生長軌跡的狀況,比如讓還不成熟的人形機器人進廠「打工」,就像要求一個剛剛蹣跚學步的孩童去百米沖刺一樣,顯得有點「揠苗助長」,甚至可能醜態百出。

但人形機器人需要被「拉出去溜溜」,它只有走進人類、感知世界,才有可能真正服務於人類。

- - - - - - - - END - - - - - - - -