界面新聞記者 | 肖芳
界面新聞編輯 | 文姝琪
大模型為具身智慧帶來了諸多令人興奮的變化,也讓機器人能夠在更多實際場景中替代人類成為可能。
在語言大模型興起的兩年時間內,具身智慧一個非常顯著的變化是,大腦的能力突飛猛進,在互動和決策、感知和決策方面的變化可謂是劃時代的。正是更加聰明的大腦,讓具身智慧半開放或者開放式的生活工作場景中解決了一些實際問題。
在聯想創投2024 CVC創投周上,聯想集團副總裁、聯想創投合夥人王光熙在接受界面新聞采訪時表示,把大模型底層演算法技術更好的用到操控小腦上,用相對比較優雅的模型、演算法實作智慧端到端服務,是具身智慧創業企業和互聯網大廠下一步要解決的問題,也是投資人關註的重點。
未來3-5年 會產生不同以往的商業化價值
大模型為具身智慧帶來的商業化機會,也讓此前不確定非常強的機器人商業化有了一些方向。在王光熙看來,未來3-5年具身智慧行業可能會產生不同以往的商業化價值。
在 聯想創投2024 CVC創投周 的展示區,界面新聞記者了解到了一些具身智慧融合大模型的套用案例。比如具身智慧人形機器人研發公司星動紀元在全球首次提出將視覺語言模型、大語言模型與人形機器人演算法進行整合,用大型語言模型指導其人形機器人小星的上層任務規劃,其在水泥地上、樹林裏、草地裏、石子路上都能快速行走,而且有較強的穩定性。
融合大模型技術之後,機器人研發的側重點也和此前有了很大不同。過去,機器人的研發都是側重於完成某一類特定工作,比如配送機器人負責配送、建築機器人智慧刷墻。但如今,機器人完成多型別任務成為可能,一個在工廠中工作的機器人既能能螺絲,還能噴漆或者組裝零件。
在剛剛結束的2024世界人工智慧大會上,界面新聞記者也看到了一些類似的展示。比如,具身智慧機器人公司 穹徹智慧展示的機器人小徹在家庭場景中不僅可以完成很多工,而且可以實作非常精細化的操作:它可以進行簡單的地面清潔工作,能夠抓取地面上的雜物丟進垃圾桶,同時還可以還可以切雞塊、削黃瓜、包榨菜等。而切雞塊、包榨菜等能力可以在真實的農業供應鏈中落地,產生商業價值。
從整體的需求來看,目前中國的具身智慧行業市場規模呈現增長趨勢。智研瞻產業研究院釋出的【中國具身智慧行業報告】顯示,2023-2029年具身智慧產業的的市場規模呈現逐漸增長趨勢,預計到2029年中國具身智慧產業的市場規模將達到185.64億元左右。
王光熙 表示 , 在 科技 發展 中 , 大家 總是 高估短期的進展,低估了遠期的事 。 在 大模型 的 加持 下 , 機器人 的 套用 場景 進一步 拓寬 , 原來 只能 解決問題 的 比例 不超過 2 0% ,如果這個 比例 能提升 到 一半, 其 在 很多 商業 場景 中 就能夠 被 更好 地 套用 。
這些具身智慧機器人能力的提升的一個重要因素是大模型帶來的感知能力提升。傳統的具身智慧感知系統在處理復雜和多樣化的環境資訊時往往顯得力不從心,但大模型可以整合來自多個傳感器的數據,如視覺網路攝影機、深度傳感器、觸覺傳感器等,實作對周圍環境的多維度感知。
透過對這些不同型別數據的綜合分析,具身智慧體能夠更加全面、準確地理解其所處的環境。比如,一個具備大模型支持的機器人在倉庫中工作時,不僅能夠透過視覺辨識貨物的形狀和位置,還能利用觸覺感知貨物的重量和質地,從而更加精準地進行搬運操作。
此外,大模型還能夠處理模糊和不確定的感知資訊。在現實世界中,傳感器數據往往會受到雜訊、幹擾和遮擋等因素的影響,導致資訊不完整或不準確。大模型透過學習大量的類似場景數據,可以對這些不完美的感知資訊進行推測和補全,從而提高具身智慧體的環境適應能力。
數據不足仍然在限制機器人的能力
具身智慧和大模型融合極大地提高人機互動效率的同時,面臨著一系列挑戰,包括數據、模型脆弱性和可靠性等問題。這些問題不僅影響模機器人的效能,也隱藏著潛在的風險。
在王光熙看來,將大模型的智慧充分多模態化同樣還有很長的路要走。尤其是在進入物理世界時,涉及聽覺、觸覺、力學反饋等模態的數據量較少,需要解決數據來源和融合的問題。
而在清華大學研究員蘇航看來,收集真實的數據是非常困難的。「我們做過一個評估,目前我們實驗室收集到全網能夠獲取到所有的人形機器人的數據以及各種AI操作的數據,至少比真正的泛化型差2~3個數量級,哪怕達到GPT3.5的水平也差2~3個數量級。」
提升泛化能力是具身智慧公司需要持續去做的工作。影響具身智慧數據泛化能力的因素包括數據的多樣性、品質、規模,以及模型的架構和訓練方法等,豐富多樣且高品質的數據有助於模型的泛化能力,而合理的模型架構和有效的訓練演算法能夠更好地捕捉數據中的關鍵資訊,並避免過擬合,增強對新數據的適應力。
王光熙 表示 , 在學術研究方面 , 大家 已經 慢慢 意識到 數據 來源的問題也 沒有 大家 想象 的 那 麽 難實作 , 之後 的 數據 來源 會是一個相對比較多來源的融合 , 除了 實際收集 的 數據 之外 , 還 可以 包括 仿真數據、模仿學習數據 以及其它模態的視訊、圖片的數據能夠轉化過來 的 數據 。
在商業化場景中, 具身智慧機器人的可靠性也非常關鍵,透過大量實驗和場景的訓練 以及 強化學能夠快速的讓它把一個任務完成的更好 。
「今天GPT可以胡說八道笑一笑就過去了,如果機器人的執行是亂來,那這個產品在很多場景裏是不可用的,這種事都還需要在技術、產品、商業化可落地層面還有很多的事要做,這些東西積累在一起確實需要幾年的時間才能真正體現規模化的商業效應。」王光熙表示。