當前位置: 華文世界 > 科技

2024年,人形機器人將會如何影響我們?

2024-02-20科技

2024新的一年註定將會不平凡!

人形機器人似乎已經站在了技術與夢想的十字路口。

以往科幻片中那些 機器仆人,似乎真的走進現實了, 炒蝦、疊衣服、煮咖啡,做家務……等等。

讓我們想象一下,你在周末剛剛睡醒,一個人形機器人走了進來,並且端著一杯熱騰騰的咖啡走到了你面前。

聽起來像是科幻片,對吧?

感覺這種情況似乎很遙遠。

但今年一月,Figure公司的一款煮咖啡機器人Figure 01,讓這樣的場景成為了現實。

在看了10小時的人類演示視訊後,該機器人可以自主開啟咖啡機蓋,放入咖啡包,按下開始按鈕,一氣呵成地完成整個煮咖啡過程。

難得的是,當咖啡包沒放準時候,它甚至還會自動糾正。

而在這類「細活「上,國產機器人其實也顯現出了不俗的實力。

例如去年智元機器人的遠征AI,就在演示中展示了多個生活化的套用場景。

例如在廚房裏打個雞蛋什麽的。

給家裏老人端茶送水什麽的,也不在話下。

即使是在實驗室裏制備樣本這樣的精細操作,也照樣手到擒來。

同樣在2023世界機器人大會上,一個名叫MagicLab的國產人形機器人,也十分嫻熟地演示了咖啡拉花手藝:

其動作之流暢、自如,實在讓人感動。

除了這種需要靈巧和精準度的操作外,某些很需要「力量」的場景,人形機器人也開始嶄露頭角。

例如波士頓動力的機器人,在搬運物體方面就是目前的行業翹楚。

這矯健的身手,提著重物一路小跑上樓梯,過獨木橋,也完全不帶含糊的。

到達目的地後,還十分聰明地來了個回身跳,用轉身時的慣性將包甩到了高處。

凡此種種,無不讓人驚呼:「臥槽!難道科幻片就要成真了?」

那麽,為何人形機器人,會在2023集中地湧現出各種「驚喜」?種種華麗的技術奇觀背後,人形機器人,真的要從科幻走進現實了嗎?

變革元年2023

如果要論2023年,人形機器人最大的變數是什麽,哪恐怕就是 AI大模型的套用

從物理維度上說,人形機器人由三個模組組成,分別是「肢體」「小腦」和「大腦」,而大模型的出現,相當於給人形機器人換了個「大腦」。

而這,也是機器人具備自主感知和決策能力的關鍵。

換句話說,以後人類想讓機器人學一種新活,只需要讓它觀察人類的範例,並在實踐中不斷從錯誤中學習,逐步提高自己的技能即可。

而這在大模型沒出現之前,是不可想象的。

從總體上而言,人形機器人的發展,大致分為了 「仿 人」、「類人」、「真人」三個階段, 當前處於「仿人」並走向「類人」階段。

在仿人階段,人形機器人執行任務,通常依賴於 預先編寫的程式 和有限的自動化技術。

試想一下,倘若你想讓機器人幫你進廚房裏炒菜,機器人的每一個動作,如切菜、攪拌、烹飪等,都需要事先進行詳細的編程。

這些編程指令包括如何移動機械手臂、如何控制力度、速度等各種參數的具體資訊。

程式之外的情況(比如今天的肉更難切一些),機器人都可能無法有效地應對。每遇到個新情況,你就得重新編程,告訴機器人該怎麽做,這多不方便啊……

那大模型是怎麽解決這一問題的?

具體來說,現階段大模型訓練機器人的方式主要有兩種: 多模態學習、端到端學習。

所謂多模態學習,利用視覺語言模型(VLM)進行場景理解,將描述輸入至大型語言模型(LLM)以得到自然語言指令,來讓機器人完成各種動作。

這方面比較突出的代表,是DeepMind的 RT-2模型 (Robotics Transformers)。

透過這個模型,機器人可以從網路和機器人數據中的各種視訊中學習,並將學到的知識轉化為機器人控制的通用指令。

具體來說,這個系統就像是給機器人裝上了一套高級的大腦和眼睛。首先,它的眼睛(VLM)能看懂周圍的環境,比如看到桌子上有個杯子,知道杯子在哪裏,長什麽樣。

然後,它的大腦(LLM)會根據眼睛看到的資訊,透過編碼器-解碼器結構,將影像特征轉換成語言描述,用人類的語言來描述這個場景,比如「拿起杯子」。

最後,這個大腦還會告訴機器人怎麽動,比如怎麽伸手,怎麽用力,確保機器人能正確地把杯子拿起來。

不過,在具體控制機器人時,RT-2本身並不直接獲取或調整機器人硬體的具體參數,如電機的電壓或電流。這些硬體參數的調整通常由機器人的控制系統負責,而RT-2模型提供的是高層次的動作指令。

在實際套用中,這些指令會被機器人的控制系統解析,並轉換為具體的硬體控制訊號,以驅動機器人執行任務。

端到端學習,就是試圖直接從輸入(如傳感器數據、影像、視訊等)到輸出(如動作、決策等)構建一個完整的模型。 例如之前提到的煮咖啡的Figure 01 機器人,就是一個明顯的端到端學習的例子。

在這個過程中,模型會透過觀看人類煮咖啡的視訊,逐漸學會其中的所有步驟。而要實作這點, 最關鍵的一步,就是模仿學習。

一般來說,模仿學習大致分為如下步驟:

首先,系統透過網路攝影機錄制視訊,或直接從人類操作者那裏收集傳感器數據。

對於某些難以或無法直接獲取專家動作數據的場景,例如自動駕駛、醫療手術等,模仿學習甚至能直接跳過後一步,直接透過看視訊學會相應的動作。

在具體學習過程中,首先,機器會從觀察數據中提取關鍵特征,這些特征可以是影像、聲音、以及物體的位置、運動軌跡、環境布局等。

之後,系統會分析數據,同時開始模型的訓練,並將輸入數據對映到輸出行為。

在這裏,數據到動作的對映,可以被視為一種物理上的因果關系。例如,當咖啡機處於特定的狀態(比如水溫達到一定溫度)時,應該執行特定的動作(比如開始泵送水)。

一旦模型被訓練好,機器人就可以開始模仿觀察到的「因果」。並在實際執行任務過程中,根據反饋不斷調整和最佳化。

可以說,正是由於有了大模型的加持,人形機器人才真正從一個亦趨亦步的「機器」,開始變得像一個會學習和應變的「人」。