當前位置: 華文世界 > 科技

一文熟悉新晉獨角獸「智元機器人」

2024-10-13科技

來源:焉知科技

作者 | 楚欣

出品 | 焉知

大模型大火之後最熱的賽道是什麽?人形機器人當之無愧。 當前環境下,截至八月底,國內就有26家成功融資 。剛過去的WRC2024,有27家人形機器人現場展示,多數都是2022、2023年成立的,講靈巧手、講大腦的企業才是當下受資本最追捧的。目前的人形機器人已經過了走路的階段,開始註重操作效能,開始尋求場景落地。

而這裏面備受矚目的明星,則非智元機器人莫屬。

智元機器人(AGIBOT),由知名的「華為天才少年」"稚暉君"彭誌輝於2023年2月27日在浦東新區成立。智~具身智慧,元~本體的象形雙足, 元是基礎,智是核心 ,具身賦能本體更多的價值。 兩屆釋出會,相繼釋出了6款產品,其中有5款是今年釋出的;一年半,員工規模迅速增加到了500多人;一年 半,融資八輪,估值超70億,迅速成為獨角獸企業。

本文接下來將從「資本~技術~產品~場景」角度對智元機器人進行系統梳理。

智元機器人公司使命

一年半、八輪,備受資本追捧

2023年2月以來,智元機器人已融資了8輪,融資速度驚人,展現了其在創投圈的火爆程度和投資人的高度認可。 本月這輪融資是第八輪,也標誌著A輪融資階段正式結束 ,共稀釋股份5.6205%。經過多輪融資,智元機器人的估值已超過70億元。 預計2025年年初啟動B輪融資

智元機器人的投資方很多元 ,不僅僅有高瓴創投、鼎暉資本、經緯創投等投資機構,也有上海臨港新片區基金、上海司南園科私募基金等地方國資,還有像比亞迪、上汽投資、長飛光纖、立景創新、百度風投、三花控股等產業資本。工業制造,是智元機器人主推的套用場景,產業投資方的加入不僅僅為智元提供了資金支撐,更重要的是提供各種落地套用場景。

此外,智元科技開始即全棧,軟體、硬體、大腦、小腦、雲系統等都做;不考慮代工組裝,直接在上海臨港建廠投產;一年半的時間,做出兩代人形機器人;既註重工業場景,也布局商業套用,還想著家用場景。吃著碗裏的,看著鍋裏的,想著田地裏的,主線支線皆投入,一路高舉高打,在當下的經濟環境中,對資金儲備確實是個很大的考驗。

技術體系G5、4域、開源、生態

1、具身智慧技術演進路線:G1-G5

8月18日的釋出會上,參考 (小編推測) 自動駕駛L1-L5分級體系,智元機器人提出了具身智慧G1到G5的演進路徑和技術框架,並稱智元當前處在G2和G3階段。

G1: 基礎自動化階段 ,即傳統自動化,它都是基於手工設計特征,然後配合一些簡單機器視覺去做一些反饋,但是整體來說都還是程式化、編程軌跡化這種技術路徑。這一階段的部署是為特定的場景量身客製的,但對於手工配置的需求,使得它無法在不同的場景裏面去做低成本的快速遷移, 所以它幾乎不具備具身智慧能力。

G2: 通用原子技能階段 ,內建任務編排大模型,擁有基礎模型能力。該階段針對大量不同的場景任務和各種作業的任務需求,提煉出一些可以復用的原子能力。簡而言 之,是以相對通用的方式去實作類似場景任務的快速遷移,然後配合大語言模型框架去做任務編排,使得機器人具備一定的泛化能力。智元目前在G2階段實作了通用的位姿估計模型UniPose、通用的抓取模型UniGrasp,通用的力控插拔模型UniPlug等一系列零樣本和小樣本通用原子技能。透過軟硬體開發和產業鏈合作,遠征A2、遠征A2-W、遠征A2-Max已掌握物品拿取、放置、轉移等基本的「原子動作」技能,並具備一定的泛化能力。

G3: 端到端操作技能 ,內建認知推理規劃大模型,可以在機器人領域實作端到端智慧水平。該階段意味著具身智慧的整體架構開始調整為「端到端」的路線,盡管這個階段與 G2 階段的演算法架構可能是類似的,但此時的各項「原子能力」的形成方式,已經 由手工設計的演算法驅動變為了大量數據采集之後的數據驅動 。依靠大量的數據采集,由數據驅動去端到端訓練一系列的原子能力,它最大的價值是形成了一套通用的技能訓練框架。在 G3 階段,智元機器人也形成了一套完整的全流程具身數據方案 AIDEA(Agibot Integrated Data-system for Embodied AI,智元具身智慧數據系統)。

G4: 端到端操作大模型 ,它結合前三個階段的所有路線,希望能夠實作一個通用的操作大模型或者叫large motion model(大型運動模型),區別於大語言模型,需要采集單獨的行業和場景數據,訓練更強的技能,能夠生成更有效的操作策略,來實作跨技能程度的泛化效果,來進一步提升整個機器人在復雜任務中的表現,所以這個就是機器的角色的價值。到了這一階段,即可引入大量跨場景的真實數據和仿真數據,同時引入世界模型幫助 AI 理解現實世界背後的物理原理,理解不同任務背後底層邏輯的相通之處。比如對於「擰開瓶子」和「擰開門把手」這兩件事,就不再需要采集兩份單獨的數據以獲得兩項單獨的技能。

G5: AGI ,這是一個長期的發展目標,就是在提供足夠多、高品質的任務數據下,可以形成一個真正、全面的、從感知決策到執行大模型、擁有具身智慧、將具備跨任務的泛化能力、開放場景的機器人技術能力,這個時候離AGI更進一步,同時也將實作公司AGIBOT的時刻。

2、人形機器人系統:四域

智元將人形機器人系統分成了動力域、感知域、通訊域和控制域,在產品起步階段就進行了完整的布局,旨在打造全方位領先的人形機器人技術體系。

1)在動力域方面, 核心關節不僅是讓人形機器人更加靈活、更加自由的關鍵,也是未來實作規模量產、低成本制造的門檻。智元機器人實作了PowerFlow關節模組的量產化叠代升級,靈巧手的自由度數也躍升至19個,主動自由度翻倍至12個,引入了基於MEMS原理的觸覺感知和視觸覺感知技術,引入了高精度力控7自由度雙臂,並支持雙臂拖拽示教模式和視覺化調節,使得機器人在操作和執行任務時更加精準和靈活。

2)在感知域方面, 智元機器人整合了RGBD相機、雷射雷達、全景相機等傳感器,並引入了自動駕駛領域的Occupancy前沿感知方案。透過SLAM演算法的套用,機器人的環境理解能力得到了顯著提升,能夠更好地感知和適應各種復雜環境。此外,智元還預研了基於自然語言指令集驅動、並可適配不同機器人的 AgentOS,並促進機器人技術的普及和套用。

3)在通訊域方面, 智元機器人自研了具身原生、輕量化、高效能的智慧機器人通訊框架AimRT。相比 ROS 等第三方中介軟體,提升了效能、穩定性、系統部署的效率和靈活性,同時又完全相容 ROS/ROS2 已有生態。AimRT的開源計劃也將在9月底啟動,這將為機器人行業的通訊技術發展註入新的活力。

4)在控制域方面, 智元機器人結合了Model-based與Learning-based兩種演算法,進一步提升了機器人的運動控制與適應能力。對於 Model-based,智元進一步提升了系統的魯棒性,因此在釋出會上機器人所做的演示才能如此流暢和絲滑。對於 Learning-based 演算法,智元在這裏劃了一個重點,希望能促成機器人訓練方法從演算法驅動 - 數據驅動的轉變。

此外,在運控演算法的基礎上,智元預研了基於自然語言指令集驅動的、可以適配不同機器人本體的 AgentOS。這一創新技術可以適配不同的機器人本體,並透過強化學習實作機器人技能的精準編排與高效執行。

3、智元具身智慧數據系統:AIDEA

數據少、成本高,是當前人形機器人產業的痛點。 G3階段的核心就是數據驅動端到端,智元機器人提出的解決方案是全流程具身數據方案——AIDEA(Agibot Integrated Data-system for Embodied AI,智元具身智慧數據系統)。

AIDEA針對具身數據采集的痛點,提供了 數采本體、遙操裝置、數據平台 三方面的行業解決方案。數采本體提供多樣、可靠的機器人,適用於工業作業與互動服務數據采集。配備支持全身對映、臂手協同和高精即時的遙操裝置,結合自研的碰撞規避功能WBC演算法,確保數據采集高效精準。AIDEA還提供從數據采集到模型部署的全鏈路數據平台,還有AIDEA ML 機器學習平台進行模型訓練與演算法評測,以及 AIDEA Sim 仿真平台。

據報道,智元機器人剛剛建成30台左右規模的訓練廠,預計到9月底將會建成100台左右規模的一個采集廠,接下來會進入一個數據量產的一個階段。從訓練情況來看,6000條實采數據可以完成機器人一個「原子動作」的訓練,一名工人每天能采集1000條數據。 實采數據、仿真數據是人形機器人很重要的兩類數據,智元在8月的釋出會上宣布,基於AIDEA的百萬條實采數據集、千萬條仿真數據集將於今年四季度開源。

4、開源與生態

和一年前的表現不同,智元今年不再強調自己是一家能做研發且制造出足夠聰明的機器人公司,不管是8月的產品釋出會,還是WRC2024展會上,智元對外展示的都是強烈的開發態度: 開源+生態 。如同OpenAI將GPT做成大模型領域的基礎設施一樣,智元也希望未來所有的機器人都使用同一個大腦甚至小腦——智元牌的。

為此,智元機器人構建了面向開放生態的軟體平台AIMA(AI Machine Architecture),該平台覆蓋了機上、雲端和客戶端,整合了機器人軟體的核心技術,並提供了豐富的二次開發介面,將為合作夥伴提供針對機器人軟體系統的高效二次開發能力。

今年8月還釋出了全棧開源機器人靈犀X1,並計劃在9月底全棧開源,含本體設計圖紙、軟體框架、中介軟體源碼、基礎運控演算法。智元希望靈犀X1能夠開啟「人形機器人人人造」的時代。

目前,均普智慧、數位華夏、科大訊飛、北電數智、軟通動力等產業鏈上下遊公司都已成為智元的生態成員,並在WRC 2024 智元展台一同展示。同時,智元機器人也正在與上海人工智慧實驗室和中國科學院軟體研究所等頂尖科研機構合作,共同聚焦多模態大模型和機器人作業系統的技術研發。後期,隨著機器人系列產品的穩步量產,智元機器人也將啟動一系列全面而深入的開發者支持計劃,包括開放核心介面與詳盡文件、舉辦機器人創新大賽,以及定期舉辦「智元暢享日」等活動。

硬體產品遠征、靈犀、部件

2024年釋出會釋出的5 款人形機器人

1、遠征A1

2023年8月18日,智元機器人釋出第一代通用型具身智慧機器人-遠征A1。 釋出會上,稚暉君以視訊形式展示了遠征A1在多種場景下的實際套用,特別針對工業制造領域,包括在汽車生產線上進行底盤裝配和外觀檢測,在工廠中完成3C產品的組裝和物料搬運,在生化實驗室輔助研究人員進行樣本制備和擴增,以及在家庭環境中烹飪、照顧老人、輔導孩子學習等一系列套用。

遠征A1身高1.75m,重量55kg,最高步速可達7km/h,可以雙足行走,依靠視覺傳感器和多線雷射雷達可自主避障,並且能夠完成多種精細動作。

遠端AI全身49個自由度,單臂最大負載5kg,關節電機峰值扭矩350N·m,整合了先進的執行器技術,如諧波一體關節、直線推桿、空心杯無刷電機等。遠征A1腿部采用反屈膝設計,在目前還不具備像人一樣非常高冗余度的關節自由度的情況下,反關節的設計可以幫助機器人擁有更大的操作空間。同時,配合高效的水冷散熱系統,確保了其在長時間執行中的穩定性和可靠性。

遠征A1的AI算力為200FLOPS,體內部署了采用智元自研的任務級具身多模態大模型WorkGPT,賦予了機器人理解使用者意圖、感知環境、編排任務的能力,可呼叫本體技能及海量工具完成多層級任務。遠征A1采用「CPU+GPU」架構,開發出一款無需聯網的「端腦」,使機器人能夠聽懂自然語言指令並分析出講話者的意圖。

2、第二代「遠征」系列

2024年8月18日上午,智元機器人2024年度新品釋出會上,彭誌輝釋出遠征A2家族產品:互動服務機器人遠征A2 + 柔性智造機器人遠征A2-W + 多載特種機器人遠征A2-Max。

智元預計今年10月開始量產遠征系列,出貨量超300台,其中雙足人形機器人遠征A2今年發貨量約200台,輪式人形機器人遠征A2-W則在100台左右。

1)互動服務機器人:遠征 A2

作為一款互動服務機器人,遠征A2對一代A1的反屈膝設計進行了最佳化,使得人形外觀更貼近人類形象,主要用在行銷客服、展廳講解、商超導覽、前台接待和業務咨詢等多種服務場景。

遠征A2有展示在4S店擔任營業員

遠征A2身高 169cm,重約 69kg,內建700Wh電池,能夠實作原地60cm寬度的靈活掉頭和長達2小時的續航能力,全身超過40個主動自由度的關節和仿生靈巧雙手,賦予了它模擬復雜人類動作的能力。

遠征A2搭載持續學習的智慧大腦,由先進的大語言模型提供支持,具備多模態感知輸入系統,能夠透過視覺辨識互動者的情緒,實作更為人性化的交流。在智元機器人2024年新品釋出會現場,遠征A2首次以機器人主持人的身份亮相,以其流暢自如的講解能力和穩定自然的運動表現,贏得了現場觀眾的關註和好評。

此外,今年馬斯克期待「Optimus機器人支持個人化,使用者將能夠客製Optimus機器人的性格和聲音,使其更好地理解和適應使用者需求」。遠征A2將這變成了現實,實作了聲音客製功能。使用者可以根據自己的喜好和需求,調整機器人的語音特征,使其更加符合個人的聽覺習慣和情感需求。

2)柔性智造機器人:遠征 A2-W

遠征 A2-W是一款柔性智造機器人,它的兩條手臂既可以獨立操作,也可以協同工作。

今年8月的釋出會上,彭誌輝與自家機器人做了一場互動。在一個布置得像客廳的場景中,彭誌輝對一台遠征A2-W機器人說「給我做一杯萄汽可樂吧?」,遠征A2-W回問:」什麽是萄汽可樂?」,」就是把葡萄榨汁和可樂放在一起」彭誌輝說。聽到解釋後遠征A2-W就移動去了桌子邊,從既有青棗、葡萄又有小番茄的碟子中選中葡萄,拿起榨汁機,成功將葡萄打成汁,然後又從有可樂、雪碧、柳橙汁、礦泉水的罐裝飲料中選中可樂,用它的兩根手指開啟瓶蓋,成功將可樂倒入葡萄杯中,遞給彭誌輝。一套流程雖算不上行雲流水,但略顯笨拙的動作裏,人與機器人生活的場景在此刻還是有了具像化。

遠征A2-W制作萄汽可樂

遠征A2-W身高為1.63公尺(A2為1.69公尺),主動自由度有22個,電池續航超過5小時,單臂負載大於5公斤,最快行走速度超過1.5公尺/秒。

遠征A2-W采用輪式底盤(A2為雙足),結合機身搭載的 RGBD 雷射雷達、全景相機、為全域安全配置的傳感器等等構件,使得它可以在各種環境中快速而平穩的移動。不過,遠征A2-W和銀河通用的Galbot G1輪式底盤對比,後者有更大的操作空間。

遠征 A2-W 具備抓取、放置、搬運、插接等多種能力,自研具身智慧演算法,並開放介面、提供工具方便二次開發。在這段演示之前,全球從未有機器人公司現場展示過機器人在語意理解和手眼配合完成相對復雜任務等兩方面的能力。

動作編排大模型在智元機器人戰略中占據中心位置 ,目前一切的投資和商業模式都是建立在如何讓這個動作大模型變得更強上。 動作編排大模型的核心要素是數據 ,8月份釋出會上智元也推出了門用於數據采集的機器人靈犀X1-W,並在上海修建了一個由大批機器人組成的數據采集工廠,計劃到10月底投入100多台機器人,由此采集的海量真機數據,除了可以教會機器人完成特定的操作任務外,還可以用於訓練一個更為通用,可以理解任務、規劃行為的機器人大腦和一個可以靈活執行多種不同任務的機器人小腦。

3)多載特種機器人:遠征 A2-Max

遠征 A2-Max是一款多載特種機器人,雙臂負載大於40公斤, 目前該型號還處於產品研發階段。

今年8月份釋出會,在展示了遠征A2-W操作工具的本領後,彭誌輝又命令遠征A2-Max搬動他面前的一個大箱子。只見這個「大麗仕」抱起箱子向前走動,完成了搬運任務。

遠征A2-W演示搬運貨物

遠征A2-Max身高1.75公尺,主動自由度有53個,配備了 19 自由度工業級視觸覺靈巧手,雙臂采用雙速比減速關節模組,峰值扭矩可達450Nm,大腿采用直線推桿電機,腿部關節擁有8800N推力,能輕松搬動40公斤重的航空箱。

3、「靈犀」系列

「One more thing(還有一件事)」,賈伯斯常這樣講。

今年釋出會稚暉君也在One more thing環節重磅公布了兩款新品:全棧開源機器人靈犀 X1、專業數采機器人靈犀 X1-W。這兩款機器人來自於 X-Lab(稚暉君實驗室),是 10 個人不到 3 個月的時間做出的產品,裏面有非常多的創新細節。

1)全棧開源機器人:靈犀X1

靈犀X1身高僅1.33公尺,體重不到33公斤,采用串並聯混合構型手臂和差分驅動雙肩關節設計,整臂僅重2.5kg。

靈犀X1人形機器人走到彭誌輝面前

靈犀X1追求極致標準化,依托智元X-Lab自研的PF86 和 PF52 兩款全新的 PowerFlow 關節,融入了模組化設計理念,可以透過簡單抱箍形式輕松拆裝,實作全身三十多個自由度的精準操控。

此外,靈犀X1內建「機-機模式」,即機器人+手機,把手機放到機器人的「頭」裏來做大腦,讓手機本身的麥克風、喇叭、螢幕等硬體,以及網路、AI算力等軟體能力為機器人帶來新的突破。

靈犀 X1售價0元,將從9月底全棧開源本體設計圖紙、軟體框架、中介軟體源碼、基礎運控演算法,但是賣零部件。彭誌輝表示,期望靈犀X1能夠開啟「人形機器人人人造」的時代,「基於核心部件和開源產品,人人可以打造屬於自己的人形機器人!」

2)專業數采機器人:靈犀X1-W

靈犀 X1-W繼承了遠征家族數采機器人的效能,作為低成本高可靠的數據來源,能降低數據獲取成本。

4、零部件硬體

1)靈巧手

遠征A1靈巧手 有超過6個的主動自由度 ,且所有驅動都是內建的,在指尖整合了觸覺傳感器,在手腕上整合了視覺傳感器,可分辨操作物的位姿、形狀、顏色、材質等資訊。

遠征A2系列的靈巧手的自由度數則躍升至19個 (人手有27個自由度) 主動自由度翻倍至12個, 並引入了基於MEMS原理的觸覺感知和視觸覺感知技術,使得機器人在操作和執行任務時更加精準和靈活,不僅能雙手協同,還能穿針引線,甚至是打麻將「單指摸牌」。

2)關節模組

智元團隊自研了一款專用關節——Power Flow,該關節透過電流直接做力矩控制,無需傳感器,提高了透明度並降低了成本。此外,還采用了高力矩透明度行星減速器、共輒同軸雙編碼器、一體液冷迴圈散熱系統以及自研的向量控制驅動器。

此外,在打造靈犀X1的過程中,團隊依托遠征系列產品的經驗,自研了兩款全新的PowerFlow關節,即PF R86和PF R52。這兩款新關節設計優雅、效能強勁,具備中空走線、輸出端絕對值編碼、支持PF-Link智慧介面等多項功能,並融入了模組化設計理念,可透過簡單的抱箍形式輕松拆裝。

3)通用夾爪、六維力傳感器

除了關節,靈犀 X1 還配備了一個自適應夾爪,能夠以主動自由度實作各種形狀物體的抓取,與百元級的六維力傳感器組成了這款機器人獨特的結構硬體方案。

智元OmniPicker自適應夾爪,融合了高精度制造工藝與多種模態設計的優點,僅重360克,但卻擁有最大30N的夾持力,能夾起超出自身重量幾倍的物品;而且最大行程達到12cm,可以只靠一個主動自由度去輕松實作各種形狀物體的抓取,而且還帶前饋的力控,無論是數據采集的精準度還是任務作業的效果都極為出色。並且提供了多種二次開發介面,包括USB、CAN/FDCAN、RS485、UART和PWM,讓使用者能夠根據自身需求靈活客製軟體邏輯,實作最佳控制效果。

自適應夾爪

百元級六維力傳感器

此外,今年3月份,智元機器人推出了首代商用清潔機器人: 智元絕塵C5 。當時的考慮為後面人形的量產提供前置幫助,比如渠道、制造、售後等。 智元商業化路徑

智元選擇是B端中的工業場景作為其商業化路徑的起點,希望透過在B端深耕細作,不斷積累前進演化,未來最終泛化到C端場景。小編推測主要考慮到一下幾點因素:

1、任務復雜度與可行性:

  • B端任務相對單一,這意味著智元可以更加專註於特定任務的最佳化和技能累積。與C端復雜的多步任務相比,B端任務的簡化有助於智元更快地實作技術突破和商業化落地;
  • 單一任務的學習和技能累積更容易實作,因為不需要處理像C端那樣多變的環境和需求。
  • 2、技能泛化與遷移:

  • 智元認為,透過對B端單一任務的學習和技能累積,未來能夠將這些技能和知識泛化到更復雜的C端場景中。這種從簡單到復雜的逐步推進策略,有助於智元在保持技術領先的同時,逐步拓展其套用場景;
  • 技能遷移是人工智慧領域的一個重要研究方向,透過在一個領域的學習,可以使得模型在另一個相關領域也能表現出色。
  • 3、商業化考慮:

  • B端市場通常對技術的穩定性和可靠性有更高的要求,這有助於智元在商業化初期建立良好的口碑和品牌形象;
  • 透過在B端市場的成功套用,智元可以逐步積累經驗和資源,為未來向C端市場拓展打下堅實的基礎。
  • 4、市場需求與競爭態勢:

  • B端工業場景對自動化和智慧化的需求日益迫切,這為智元提供了廣闊的市場空間和發展機遇;
  • 在C端市場,競爭可能更加激烈,且使用者需求多變,難以把握。因此,從B端市場入手,可以為智元提供更多的時間和機會來完善其技術和產品。
  • 從風口到現實的極速邁進

    興趣、實力、風口、資本皆備,智元一路狂奔。

    智元宣稱,2024年是智元商用落地元年。這是智元從技術研發走向市場套用的關鍵一步,也是其實作商業化落地的重要裏程碑。未來的5到10年,將是智元和整個機器人行業的關鍵時期,期待更多的科技達人加入這一賽道,共同推動具身智慧的發展,實作智慧機器人走進千家萬戶的美好願景。