當前位置: 華文世界 > 科技

大模型給具身智慧裝上「大腦」

2024-09-06科技

作者|參商

編輯|星奈

媒體|AI大模型工場

剛過去的八月,AI 領域機器人「上桌」。 前有華為天才少年「稚暉君」的智元機器人一口氣釋出了五款商用人形機器人,後有多達 27 款人形機器人亮相世界機器人大會。

蘋果也宣布將進軍機器人行業,推出一款帶有機械臂的桌面機器人,代號J959。外媒猜測,蘋果將利用這款機器人裝置打入智慧家居市場,被認為是蘋果進軍機器人市場的第一步。

據外媒報道,該裝置將結合一個類似 iPad 的大型顯示器、網路攝影機和一個帶有機械臂的底座,預計將於 2026 年或 2027 年左右釋出。

從搬運貨物的輪式機器人到能寫一手老練毛筆字的AI機器人助理,再到可以檢測汽車部件的工業機器人,人形機器人正在向產業和生活端不斷滲透。

同時,國內具身智慧熱也從產業端蔓延至投融資領域,熱錢瘋狂湧入。 根據來覓PEVC的數據顯示,2024年一季度機器人領域合計發生融資案例59起,涉及融資金額45.22億元。其中,最為瘋狂的是,智元機器人成立17個月就完成了7輪融資,投前估值已達70億元。

具身智慧成為繼AI Agent之後的另一個火熱的大模型落地方向,也是大家都無法也不敢錯過的存在。

一方面,創業者集中湧入。 IT桔子數據顯示,2023年1月至今國內共成立了29家人形機器人公司,其中有22家已經獲得至少1輪融資。

另一方面,大廠也都或多或少地參與到具身智慧的投資中。 具身智慧初創企業融資背後不乏百度、阿裏、美團、科大訊飛、小米、聯想、京東等科技巨頭的身影。

實際上,現在具身智慧之所以如此火熱出圈,離不開大模型及生成式AI的發展。

具身智慧這一概念早在1950年就被提出,進入21世紀後,具身智慧開始在機器人領域進一步發展。直到去年 ITF World 大會上,「具身智慧」概念被黃仁勛帶火。黃仁勛直言,人工智慧的下一個浪潮將是具身智慧,即能理解、推理並與物理世界互動的智慧系統。

大模型的出現讓具身智慧賦能實際套用這曾一遙不可及的夢想有了實作的可能性。

那麽大模型是如何影響具身智慧的?具身智慧是曇花一現還是能長盛不敗?其發展的難點、卡點和關鍵點又是什麽?

一、初創企業狂吸金,巨頭進場砸錢

在大模型領域一直流傳著「新AI四小龍」和「大模型五虎」,而在具身智慧賽道也有自己的「新舊四小龍」。

「老牌四小龍」包括優必選、達闥機器人、非夕科技、宇樹科技;「新四小龍」則分別是智元機器人、有鹿機器人、逐際動力和銀河通用。

老牌四小龍成立時間早,大多集中在2012-2015年成立,在技術、產品以及市場上都更為成熟。

而新四小龍則大都誕生於這波大模型浪潮下,相比於傳統機器人公司,他們更加關註將AI與機器人的深度融合。盡管成立時間較短,但這些新興公司在市場上展現出強大的競爭力,吸引了大量投資。

智元機器人成立之初就內建光環,由華為天才少年「稚暉君」帶隊,專註於發展通用人形機器人和具身智慧,致力於以AI+機器人的融合創新,打造世界級領先的機器人產品和生態。

目前,智元機器人已經拿到了天使輪、A輪、A1輪、A1+輪、A2輪、A3輪、A4輪等多輪融資,其中包括紅杉中國、尚欣資本、上海臨港新片區基金等頂級資本,還有百度、比亞迪、上汽等產業資本,「吸金」能力可謂強悍。

另一家明星企業當屬銀河通用。去年5月成立的銀河通用,在今年兩個月內,就完成兩次融資,今年6月獲得超7億人民幣天使輪融資,被稱為「年度最大天使輪」,僅一個月後香港投資管理有限公司追加投資。在新一輪融資後,銀河通用的最新估值為4.25億美元。

兩次融資的陣容也十分豪華,既有中關村科學城、首鋼基金等國資背景,也有IDG資本、源碼資本等風投機構,同時還包括美團戰投、訊飛創投、商湯國香資本等產業資本。

有鹿機器人和逐際動力也都憑借著自身的技術優勢和商業化落地方案獲得了資本的青睞。

有鹿機器人專註於機器人通用大腦研發,依托於自主研發的第二代具身智慧技術LPLM大模型致力於讓每一台專業裝置都擁有智慧性。在今年5月獲得一筆來自中國頭部清潔裝置制造商的超千萬元的訂單。

據官方披露,截至目前有鹿機器人已完成由元璟資本、創新工場、百度風投等投資的超1億元融資。

逐際動力是為數不多的將空間智慧與運動智慧結合的公司,這意味著機器人同時具備了"眼睛"和"肢體"的協調能力。其自主研發的「CL-1」的人形機器人已經基於即時地形感知上樓梯、起跑加速、轉身往返等運動。

7月,逐際動力也完成數億元A輪戰略融資,由阿裏巴巴、招商局創投、上汽集團旗下尚頎資本領投,原始股東峰瑞資本、綠洲資本和明勢資本跟投。

一方面是,具身智慧初創企業瘋狂吸金。 據智東西統計,截至2024年6月30日,今年國內機器人行業融資69起,已披露金額的融資事件中億元級融資12起,機器人領域已披露融資總額總計約在75億元左右。

另一方面是,巨頭正在瘋狂砸錢。 如果仔細分析就會發現,在具身智慧融資背後,國內外大廠在具身智慧領域的爭奪也進入白熱化階段。

百度、阿裏、騰訊、美團等選擇直接投資。百度今年連續兩輪押註智元機器人;阿裏領投逐際動力;而在銀河通用背後站著美團;騰訊投資了港股成功上市的「人形機器人第一股」優必選。

而字節跳動、小米等則選擇自主研發,字節跳動在AI和機器學習領域有著深厚的積累,小米則在智慧家居和機器人領域有著豐富的經驗。

具身智慧作為大模型之後的下一個人工智慧趨勢,大家都不想錯過。

二、大模型給具身智慧裝上「大腦」

史丹佛大學電腦科學教授李飛飛認為,具身智慧是 AI 領域的下一個「北極星問題」之一,它能夠在虛擬世界中探測和改變自身環境,與周圍環境互動,學習復雜的類人任務。

即具身智慧能夠在與現實環境產生互動後,透過自身的學習,認識和改造世界。區別於我們目前所提到的AI大模型,如果說AI大模型現在能夠認識世界,那麽具身智慧是AI的更高階形式,能夠對物理世界進行改造。

這也就意味著,具身智慧的實作需要軟硬體高度集中,其中的 核心突破點在於大模型 。可以說, 大模型給具身智慧裝上了強大的「AGI大腦」。 提升了機器人在感知、理解和規劃任務上的泛化能力,也對人機互動產生顛覆性影響。

那麽大模型如何影響具身智慧的?

從架構上看,具身智慧分為大腦、小腦和肢體三個重要部份。大腦負責 感知和決策, 小腦控制肢體生成動作,肢體則透過傳感器、執行器等硬體裝置與物理世界進行互動。

以往,傳統的具身智慧系統存在環境適應力差,只能在特定、預定的環境中執行,難以適應復雜多變的環境;任務執行效率低,往往需要人工幹預;及缺乏自主學習和泛化能力。

而大模型的出現,正在改變了這一現象。大模型對具身智慧的影響更多集中在「大腦」層面,目前的通用大模型本質都是在接收和回答圖文資訊,是決策和感知的過程,而最直觀的效果是我們可以與機器人用自然語言的方式進行交流。

去年7月,李飛飛團隊釋出具身智慧新成果,機器人接入大模型後直接聽懂人話,將復雜的指令轉化成具體行動規劃,無需額外數據和訓練。

在大語言模型+視覺語言模型的輔助下,機器人能從3D空間中分析出目標和需要繞過的障礙並規劃行動。

大模型的出現讓機器人理解世界的能力、推理決策的能力得到大振幅提升。

大模型之於具身智慧的意義,不僅在於大模型讓機器人獲得自然語言能力,更重要的是這極大降低了機器人的使用門檻,有望推進機器人落地各行業套用場景。

可以說,大模型的成功,為具身智慧的發展帶來了拐點,除了大模型的賦能,政策端的加持讓這一拐點加速推進。

2023年11月,工信部又印發【人形機器人創新發展指導意見】,提出到2025年建立創新體系、整機產品達到國際先進水平,以及到2027年產業綜合實力達到世界先進水平等發展目標。

今年6月,北京也釋出【北京市機器人產業創新發展行動方案(2023-2025年)】,首次針對人形機器人行業進行政策指導,並提出加緊布局人形機器人,對標國際領先人形機器人產品,支持企業和高校院所開展人形機器人整機產品、關鍵零部件攻關和工程化。

在國內,人形機器人在智慧制造領域不斷滲透,覆蓋電子、汽車等行業。家用場景下的機器人今年也迎來前所未有的發展機遇,市場規模已觸及數百億美元的量級,並預計未來十年內將繼續保持高速增長的態勢。

據國際機器人協會預測,2021年至2030年,全球人形機器人市場規模年復合增長率將高達71%。中國電子學會數據顯示,到2030年,中國人形機器人市場規模有望達到約8700億元。

從技術到產業,從政策引導到商業落地,具身智慧的時代正在到來,也是各大科技巨頭押註具身智慧深層原因。

三、具身智慧的難點、卡點和關鍵點

盡管具身智慧現在融資火熱、新品頻出,未來市場廣闊,但業內普遍認為 產業尚處於早期,要形成規模化商業化套用還有很長一段路要走。

具身智慧要向前發展, 難在盈利和落地,卡在數據。

首先,具身智慧商業化前景不明朗,盈利難。

被譽為「人形機器人第一股」的優必選,已經連續四年虧損。從2020年至2022年,公司的凈虧損分別達到7.07億元、9.20億元、9.75億元和12.34,累計虧損超過38億元,且毛利率也在不斷下滑。

具身智慧難以實作商業化的背後是落地難的窘境。

目前人形機器人主要集中在在工業、互動服務、行銷,以及商業3C等場景,在家庭服務方面,要完全走進還需要5-8年時間,甚至更遠,而更多套用場景仍處在探索和試驗階段。盡管有些具身智慧企業已經開始小規模量產,而要達到市場所需還遠遠不夠。

實際上,具身智慧場景受限和量產困難的背後是成本的制約。盡管目前人形機器人的制造成本在逐漸下探,由之前的上百萬到如今的幾十萬,但對於整個市場的接受度來說依然在上限之上。

具身智慧背後涉及從軟體到硬體的超長供應鏈,且技術門類眾多。

伺服器、減速機、控制器是工業機器人三大核心零部件,成本占比超70%。由於人形機器人相較於工業機器人擁有更大的自由度,因此減速器、電機成本占比將會更高。

要想將人形機器人的成本打下來,透過自研降低這些關鍵零部件的價格是繞不開的關鍵點。

在成本方面,還有一個大頭——數據。

數據是具身智慧發展的核心壁壘,如何能持續從物理世界獲取數據並高效使用是制約其繼續發展的主要瓶頸。

當前,對於具身智慧公司來說,絕大部份數據都是閉源的,如果要實作長足發展,構建數據自主權是必須要解決的問題。

智元機器人在過去一年裏,構建了一套完整的全流程具身數據方案 AIDEA,投入了大量的數據采整合本。

稚暉君表示,他預計接下來智元會有百台以上自由部署機器人專門用來做端到端的數據采集,他們也將於四季度開源基於 AIDEA 的百萬條真機、千萬條仿真數據集,以積極建設開放生態。

實際上,數據問題背後還涉及到具身智慧的泛化問題。泛化可以理解為一種遷移學習的能力,把從過去的經驗中學習到的表達、知識和策略套用到新的領域。

上文提到大模型對具身智慧得影響主要集中在大腦層面,在感知和決策完成後,需要機器人呼叫「小腦」去泛化,根據任務驅動身體終結行為。

而在這一過程中大模型對肢體運動和控制得作用則小很多,也就是說具身智慧得泛化能力還受到很大局限。

數據問題又不僅是數據問題,它與商業化息息相關。

當時GPT-40釋出時就有人分析,OpenAI之所以沒有釋出GPT-5而是釋出GPT-40的一個重要原因是想利用GPT-40獲取更多高品質的多模態數據資源。

有鹿機器人陳俊波博士曾表示,具身智慧需要像特斯拉一樣在真實物理世界裏獲取數據來完善世界模型,但想獲取真實物理世界的數據必須率先完成商業化,第一時間把產品投放到市場,獲得更大規模和更高品質的數據,數據規模變得更大後,智慧程度更高,進一步推動商業化程度,實作正向迴圈。

長期來看,具身智慧產品研發投入高、套用落地周期長,行業的馬太效應會逐漸顯現,資金和資源將湧向有技術突破、產品創新及手握訂單的頭部明星創企,而中腰部及尾部生存空間將進一步壓縮。

對具身智慧企業來說,要想實作長足發展,數據、技術、商業化三者缺一不可,只有讓這三個飛輪轉起來,才能有望跑出來。