記者:吳洋洋 陸彥君
表格整理:楊秋秋 陳凱悅|制圖:程星
編輯:吳洋洋
Key Points
對機器人來說,更重要的是動作大模型,而不是語言大模型;
動作編排大模型在智元的公司戰略中占據中心位置,其他技術它都開源了;
就像OpenAI將GPT做成大模型領域的基礎設施一樣,智元也希望未來所有的機器人都使用同一個大腦——智元牌的;
在機器人大腦的前進演化上,智元提出了G1到G5的演化路徑和技術框架,並認為目前我們處於G2和G3階段;
家庭場景的任務比工業場景更復雜,從B端積累的能力可以泛化到C端。
大模型領域進入瓶頸期後,人形機器人成為新風口。簡單比較下每年8月底在北京舉行的世界機器人大會(WRC)的展商陣容就能發現這一點。與一年前相比,剛剛結束的WRC 2024上人形機器人的廠家數量同比增加了一倍,它們取代傳統的機械臂、手術機器人或者機械狗,成為展館中占據最大面積的機器人型別。
人形機器人被從0到1組裝出來的速度令人驚訝。今年年初,耶魯大學電腦專業博士生楊豐瑜才傳出進入人形機器人領域創業,5個月後,其創辦的Unix機器人公司就讓可以疊衣服、做漢堡的人形機器人「走」出來了。Unix可能是最快的,但不是唯一的,WRC 2024擠滿了2022年、2023年才成立的年輕機器人公司,現場看起來就像是2023年「百模大戰」的再次上演,只不過這一次模型們開始有了身體。
Unix展示它們用5個月時間做出來的機器人疊衣服。
今年的「百機大戰」與去年的「百模大戰」有不少相似之處,尤其在商業化的方向選擇上。和大模型公司一樣,人形機器人公司們也面臨選B端還是C端,抑或「兩條腿」走路的艱難選擇。WRC 2024展會上,差不多有一半的公司選擇家庭場景,它們希望消費者將其機器人買回家當作玩具,或者在不久的將來幫他們做點家務,Unix是這個方向的代表。同時有另一半的公司選擇B端的工業、零售等場景,比如智元希望他們的機器人可以進工廠幹活,銀河通用想要他們的機器人有朝一日在無人值班的夜間藥店為消費者抓藥,宇樹科技則既推出了可以去危險的工業場景中巡檢的機器狗,同時又推出了個子相對瘦小、看起來像兒童而非大人的小號機器人以便在家庭場景中服務普通使用者。
銀河通用展示機器人抓藥。
另一個相似之處是肉眼可見的同質化。WRC 2024展會上,幾乎每一家機器人公司的人形機器人都有了還算靈巧的雙足或者雙手,載入了ChatGPT後,它們可能連跟你說的話都一樣。
不過,與這些外在的相似之處相比,「百機大戰」與「百模大戰」兩股潮流的不同之處更多。首先是玩家身份,訓練大模型的公司們,包括MiniMax、月之暗面、智譜、百川等在內,都沒有提出過要進入機器人領域,目前已拿到融資或已推出人形機器人的創業者都是全新的,百機大戰與百模大戰是兩個圈子的遊戲。其次,機器人公司的估值依然遠低於大模型公司,目前估值最高的兩家人形機器人公司智元和宇樹科技的估值都在70億元左右,而頭部大模型公司的估值都已經上漲到200億元左右。
造成這些人形機器人公司估值更低的原因之一是投資人們的「非共識」,部份聲音認為人形機器人的ChatGPT時刻至少要再過幾年才會到來。然而更重要的原因來自於為「百模大戰」燒錢的後遺癥,市場原本預期大量投資能夠篩選出像OpenAI那樣的壟斷性選手,結果卻是同質化的智慧水平,甚至基於模型開發的產品形態都是差不多的。人形機器人公司們被資本市場期待擁有更強的造血能力,而不是依賴融資生存。
這種壓力下,國內這些人形機器人公司們很難像特斯拉那樣對機器人進行軟硬體一體化的全方位投資,而是分別在大腦(即認知和任務規劃能力)、小腦(即運動控制)和本體(即身體硬體)方面有所側重。
我們在3個類別中分別選擇了一家公司,嘗試透過對它們的采訪或資料梳理,展現機器人新浪潮初期的市場邏輯。本文是第一篇,關註的是2023年2月由「稚暉君」彭誌輝在上海創立的人形機器人公司「智元」。
作為目前中國估值最高的機器人公司,智元機器人在今年8月18日舉辦了創立後的第二次釋出會,釋出了遠征A2、遠征A2-W、遠征A2-Max、靈犀X1與靈犀X1-W等5款商用人形機器人。
8月18日的釋出會上,智元機器人釋出的5款商用機器人。
這次釋出會上,智元機器人展示了它的最新款人形輪式機器人遠征A2-W有多聰明和能幹。在一個布置得像客廳的場景中,彭誌輝對這個機器人說「給我做一杯萄汽可樂吧」,遠征A2-W回問「什麽是萄汽可樂」,「就是把葡萄榨汁和可樂放在一起」彭誌輝說。聽到解釋後遠征A2-W就移動去了桌子邊,從既有青棗、葡萄又有小番茄的碟子中選中葡萄,拿起榨汁機,成功將葡萄打成汁,然後又從有可樂、雪碧、柳橙汁、礦泉水的罐裝飲料中選中可樂,用它的兩根手指開啟瓶蓋,成功將可樂倒入葡萄杯中,遞給彭誌輝。
以下視訊來源於
新皮層NewNewThing
遠征A2-W理解了彭誌輝的意圖,並完成了一個需要多步規劃的復雜任務——制作碳酸飲料。
在這段演示之前,全球從未有機器人公司現場展示過機器人在語意理解和手眼配合完成相對復雜任務等兩方面的能力。此前,包括Figure AI在內的美國同行也是更多展現了他們的機器人載入ChatGPT後如何善解人意。
支持遠征A2-W機器人為彭誌輝成功制作「萄汽可樂」的,是智元的動作編排大模型。這個大模型在智元的公司戰略中占據中心位置,在此之外,它雖然也投入機器人本體、運動控制等部份的研發和機器人整體的生產和銷售,但其他一切投資和商業模式都建立在如何讓這個動作大模型變得更強上。
動作編排大模型變得更強的必要條件之一是數據。這次釋出中,智元推出了專門用於數據采集的機器人靈犀X1-W,並在上海修建了一個由大批機器人組成的數據采集工廠,計劃到10月底投入100多台機器人,由此采集的海量真機數據,除了可以教會機器人完成特定的操作任務外,還可以用於訓練一個更為通用,可以理解任務、規劃行為的機器人大腦和一個可以靈活執行多種不同任務的機器人小腦。
智元機器人在上海建立的數據采集工廠。
這些預訓練只是智元獲得數據的方式之一,它更大的計劃是讓機器人以更快的速度進入更多工業場景,從真實的工業崗位中獲得數據。8月18日的產品釋出會和8月20日開始的WRC 2024展會上,智元展示的都是一種鮮見的開放態度:開源和生態成為兩個不斷被提及和展示的關鍵詞。一年之前,它強調的還是自己是一家能做研發並能制造出足夠聰明的機器人的公司,至於它借助了哪些產業鏈的力量,那是秘密。而今天,包括訊飛、均普智慧、數位華夏、北電數智、軟通動力等在內的產業鏈上下遊公司都已成為智元的生態成員,並在WRC 2024展會的智元展台一同展示。
「智元智元做的事是把機器人的大腦和小腦都搭起來了,以後所有人都可以基於我們的機器人大腦和小腦API介面,去做技術開發。」智元機器人商業拓展負責人胡靜萍在展台上對「新皮層」說。就像OpenAI將GPT做成大模型領域的基礎設施一樣,智元也希望未來所有的機器人都使用同一個大腦甚至小腦——智元牌的。
智元開源了除動作編排大模型以外的所有機器人技術,從本體到運動控制,從硬體到軟體,以及未來其數據工廠會產生的數據,以此打通進入更多工業場景的路徑。胡靜萍稱,未來很多公司並不需要親自投入機器人本體的研發,智元會透過技術開源讓機器人本體的價格變得更低,同時這些公司也不需要再從零開始開發適合其場景的機器人大腦,只用接上智元的機器人大腦API介面就可以了。
這款更有「人情味」的機器人來自深圳的數位華夏公司,其本體來自與智元機器人的遠征A2。
在機器人大腦的前進演化上,智元提出了G1到G5的演化路徑和技術框架。類似自動駕駛從L1到L5的前進演化,智元認為機器人的智慧也將經過從只能完成簡單任務到能勝任復雜任務的成長過程。智元合夥人兼行銷服副總裁姜青松在接受包括「新皮層」在內的媒體群訪時稱,「我們現在是在機器人的G2和G3階段。」
商業化路徑上,智元首先選擇的是B端中的工業場景,理由是相較於C端的復雜任務(像遠征A2-W那樣完成從選中葡萄、榨汁、選中可樂、將它們混合在一起的工作,是一種多步拆解),B端的任務相對更單一。姜青松稱,智元認為這些對單一任務的學習和技能累積未來能最終泛化到C端場景中。這是一個從G2、G3,向G4、G5前進演化的過程。
以下是智元合夥人兼行銷服副總裁姜青松與包括「新皮層」在內的媒體交流的記錄,為方便閱讀內容經過編輯。
相較於機器人本體,智元更在乎機器人的大腦
提問:智元在開源後的願景是什麽?怎麽看待人工智慧開源和閉源兩派的觀點?
姜青松:
開源肯定是對整個產業鏈促進最大的,開源才有更多人使用,但是機器人行業太新了,怎麽開源能夠讓使用者使用是關鍵,這是我們考慮最多的地方。
我們提出了三個開源,第一就是數據集開源。AI是數據驅動的,現在每采一條數據都有成本。我們之前都是數據采集工人一人教一台機器生產出來的,那個成本很高,現在我們把之前真機數據共享出來一部份,讓大家能夠快速地利用數據去使用機器人。
第二個,我們開源了靈犀X1,是想降低大家造機器人的成本。比如學生或者科技達人想做機器人,如果都按照幾十萬一套,肯定承受不起。我們現在全套零部件價格已經非常合適,你只需要買零部件,零部件價格又很便宜,我們又開源了所有圖紙、軟體框架還有演算法,這也是促進產業往前發展的。
還有一個是開源的是底層作業系統。就是像安卓手機一樣,但是中國現在還沒有我們自己的機器人作業系統。這部份我們把一部份中介軟體開源了,相當於慢慢地為國產的機器人作業系統做一份鋪墊。
提問:過去一年機器人公司的數量翻倍,機器人本體的門檻越來越低,未來機器人公司會越來越多嗎?
姜青松:
真正能夠為客戶創造價值的部份是大腦,進入這部份的機器人公司並不是很多。我們在做從機器人本體、小腦到大腦的全棧布局。我們有5款大腦,還釋出了數據采集系統,實作以數據來驅動;小腦就是部份的運控演算法,進行全棧布局的機器人廠家很少。機器人真正的核心是大腦,大腦才能給客戶帶來價值。
提問:大腦部份智元接的是訊飛?
姜青松:
大腦裏有兩個大模型,一個叫做通用大模型(註:指語言大模型),我們用的是訊飛大模型。但是我們不是用它的人機對話功能,而是用它對世界的認知能力,比如我要去拿一瓶水,它會告訴我水在哪裏。對世界的認知工作由通用大模型完成,但是要去「拿」這個動作,需要由動作大模型完成。動作大模型由數據驅動,相當於需要有一群人來訓練機器人去拿水,訓練多了機器人就會了。
通用大模型靠整個業界來發展,但是動作大模型是我們自己做的核心大模型,壁壘會很高,特別是數據壁壘。通用大模型數據來自互聯網,但是動作大模型的數據來自於實際場景,必須實際地去采。我們做工業場景,必須真正地去服務工廠,才能有真實的工廠數據。
提問:華為、阿裏也有工業大模型,區別是什麽?
姜青松:
這種工業大模型是不一樣的,是兩個維度,這種屬於工業知識庫,而我們的模型是實際做工。工廠裏面分IT和CT,IT是技術基礎、資訊架構,CT是通訊。但是還有一個東西叫做OT(operational technology),實際操作,我們現在就要實際去工廠幹活,手把手教機器人怎麽去幹活,教的過程產生的數據就是最有價值的數據。
提問:你們對G4和G5的定義是什麽?
姜青松:
G3是擁有原子能力,比如拿水的能力;G4就是機器人能夠做簡單任務,知道從這裏拿到那裏,做一個短任務;理解物理是G5,相當於說它能夠做復雜任務了。G5就差不多可以在家裏面幹任何活了,你說一句話「我渴了」,或者是「我餓了」,機器人知道立馬去廚房做好飯,這就是G5。
提問:你們投資人說第一個場景跑通需要三到五年,你們怎麽判斷?
姜青松:
如果要做G5,那肯定是需要五到八年,甚至更久。第一步的商業化是簡單的,工廠裏做工很簡單,比如流水線拆解動作就是一個簡單動作,從這裏拿到那裏,可以透過機器人來做。所以為什麽要進工廠?因為從簡單的工廠開始,再慢慢到復雜工廠,可以為進入家庭做好鋪墊。機器人肯定一開始是ToB,然後再慢慢地ToC。它的能力是需要積累的。
提問:你們的動作模型和語言模型現在還是分開的,需要融合嗎?
姜青松:
現在是分開的,業界各有說法,我們如果到了G5的階段是可以融合的,但還是需要根據那個時候的技術路線決定。
提問:現在做動作大模型的公司多不多?
姜青松:
不多,而且很多人都沒在這兒(指世界機器人大會)展示。比如典型的像我們,靈初、星塵智慧也是,目前投資界在接觸它們,銀河通用也是偏向大腦。他們對本體不是那麽關註,你們看他們都是輪式。
工業場景是個切入點,累積夠能力後可以泛化到家庭
提問:未來的工廠裏,哪些場景是留給那些傳統機器人公司比如ABB的,哪些是留給你們的?
姜青松:
現在工廠裏面ABB那種傳統工業臂已經用得很多了,差不多能夠解決工廠百分之六七十的自動化問題,但還有很多的柔性場景、危險作業,比如煙花炮竹、化工等危險場景。這些地方就是我們首先要做的,現在我們已經在聯系一些客戶,準備讓機器人參與這種場景。
機器人怎麽去做呢?第一步叫遙操作,工人離開危險操作區域,只戴上VR眼鏡,穿上「動捕」(即動作捕捉)服,工人操作得越來越多,數據就形成了。數據形成以後,機器人就有了泛化能力,這就是機器人進工廠的一種途徑。
還有一些簡單的做法,比如像上下料,我們在上海建了一個大型的數據訓練場,到了10月底會有100多台機器人,也有100多個工人手把手教它們幹活,教多了機器人就會了。這也是機器人進入工廠的一種模式。
這些就是我們說的數據驅動,而其他機器人公司還在展現運動控制能力,運控能給客戶帶來的價值其實大家都能看得到,機器人再怎麽會走路、會跳,與使用者有什麽關系呢?
提問:要實作你們的願景,現在需要解決哪些問題?
姜青松:
要一步步走,今年我們會能解決一些場景,比如像上下料我們已經開始逐步能夠解決了。
原先所有的機械臂需要在XYZ三個方向上位置固定、大小固定才能操作,但我們現在可以做到泛化,任意零件,任意物體、任意位置我都能辨識,都能快速操作。這個我們完成的第一步。
明年我們想嘗試做裝配,裝配的重復性會特別大。那些活特別枯燥,一大堆線,一大堆特別小的線頭,要穿針引線,得一天8到10個小時,這對年輕人來說是種災難。機器人行業會產生新工種,比如第一個數據采集,還有一個叫做數據校準師,數據是要調的,一個行業會產生很多新的崗位。
提問:現在工廠裏面最耗人的地方是什麽?
姜青松:
就是柔性物質的裝配,特別是裝配這一塊,普通的工業機器人很難操作。機器人發展有兩個大方向。一個是手要越來越精巧,我們釋出的機器手可以抓針、可以摸東西,會越做越精密,以後進入工廠,它幹的活就會像人一樣了。還有一個就是腦,讓機器人越來越能夠幹更多的活。人類從猿前進演化到人,就是釋放了雙手,機器人的發展也一樣。走路大家最後都會走,會有多大差異?但是手是不是足夠精巧?腦是否足夠聰明?這才是人形機器人發展的兩個大方向。
提問:toB和toC兩個場景,會是工業場景、toB先跑通嗎?
姜青松:
人形機器人有兩個能力,一個是能跟你對話、了解你,另一個是能幫你幹活。(家庭這樣的)互動場景鍛煉的是它的對話理解能力,工廠鍛煉的是幹活能力。到某個點的時候會兩條線並合的。
提問:哪個更難呢?
姜青松:
都挺難。現在人機對話已經做到GPT-4o了,但是對自己的感知還不是很強,它只是一個平面感知。李飛飛做了一個三維空間,構造虛擬世界,這裏有物理世界所有的邏輯和規律,達到這個程度後,機器人才會有對世界的真正認知。機器人現在了解的只是互聯網的數據積累,是一個知識百科,但它對物理世界不夠了解,比如一瓶水我手松開了,它肯定會往下掉,但這個規律GPT不知道。
提問:在工業這個場景,現在挑戰是PMF(產品-市場匹配)問題,還是價格?
姜青松:
價格現在不是問題。工業場景一般按照兩年的投資報酬計算,就是一個崗位一個工人兩年來算。一般兩年是一個猶豫期,就是說新技術客戶它會用,但不會規模采用,你做到1.5年的投資報酬周期的時候它會大規模采用,而做到1年的時候它會毫不猶豫地采用。其實我們現在價格已經非常能滿他們要求了,(我們的產品投資報酬周期)是在1.5年到2年之間了。
公司檔案:
智元機器人
創立時間:
2023年
CEO:
彭誌輝
核心產品:
遠征A2(互動服務機器人)、遠征A2-W(柔性制造機器人)、遠征A2-Max(多載特種機器人)、靈犀X1(全棧開源機器人)與靈犀X1-W(專業數采機器人)
融資歷程:
· 2023年3月,天使輪融資,具體金額未披露,投資方為奇績創壇、高瓴創投;
· 2023年3月,A輪融資,具體金額未披露,投資方為奇績創壇、高瓴創投、鼎暉投資、臨港新片區基金;
· 2023年4月,A+輪融資,具體金額未披露,投資方為BV百度風投、經緯創投,司南園科;
· 2023年8月,A++輪融資,具體金額未披露,投資方為比亞迪、沃賦創投、藍馳創投;
· 2023年12月,A+++輪融資,總額超6億元,投資方為藍馳創投、中科創星、鼎暉投資、長飛基金、C資本、高瓴創投等;
· 2024年3月,A++++輪融資,總額超10億元,投資方為M31資本、紅杉中國、上汽投資。
估值:
70億元