2024年，人形機器人將會如何影響我們？

2024-02-20科技

2024新的一年註定將會不平凡！

人形機器人似乎已經站在了技術與夢想的十字路口。

以往科幻片中那些機器仆人，似乎真的走進現實了，炒蝦、疊衣服、煮咖啡，做家務……等等。

讓我們想象一下，你在周末剛剛睡醒，一個人形機器人走了進來，並且端著一杯熱騰騰的咖啡走到了你面前。

聽起來像是科幻片，對吧？

感覺這種情況似乎很遙遠。

但今年一月，Figure公司的一款煮咖啡機器人Figure 01，讓這樣的場景成為了現實。

在看了10小時的人類演示視訊後，該機器人可以自主開啟咖啡機蓋，放入咖啡包，按下開始按鈕，一氣呵成地完成整個煮咖啡過程。

難得的是，當咖啡包沒放準時候，它甚至還會自動糾正。

而在這類「細活「上，國產機器人其實也顯現出了不俗的實力。

例如去年智元機器人的遠征AI，就在演示中展示了多個生活化的套用場景。

例如在廚房裏打個雞蛋什麽的。

給家裏老人端茶送水什麽的，也不在話下。

即使是在實驗室裏制備樣本這樣的精細操作，也照樣手到擒來。

同樣在2023世界機器人大會上，一個名叫MagicLab的國產人形機器人，也十分嫻熟地演示了咖啡拉花手藝：

其動作之流暢、自如，實在讓人感動。

除了這種需要靈巧和精準度的操作外，某些很需要「力量」的場景，人形機器人也開始嶄露頭角。

例如波士頓動力的機器人，在搬運物體方面就是目前的行業翹楚。

這矯健的身手，提著重物一路小跑上樓梯，過獨木橋，也完全不帶含糊的。

到達目的地後，還十分聰明地來了個回身跳，用轉身時的慣性將包甩到了高處。

凡此種種，無不讓人驚呼：「臥槽！難道科幻片就要成真了？」

那麽，為何人形機器人，會在2023集中地湧現出各種「驚喜」？種種華麗的技術奇觀背後，人形機器人，真的要從科幻走進現實了嗎？

變革元年2023

如果要論2023年，人形機器人最大的變數是什麽，哪恐怕就是 AI大模型的套用 。

從物理維度上說，人形機器人由三個模組組成，分別是「肢體」「小腦」和「大腦」，而大模型的出現，相當於給人形機器人換了個「大腦」。

而這，也是機器人具備自主感知和決策能力的關鍵。

換句話說，以後人類想讓機器人學一種新活，只需要讓它觀察人類的範例，並在實踐中不斷從錯誤中學習，逐步提高自己的技能即可。

而這在大模型沒出現之前，是不可想象的。

從總體上而言，人形機器人的發展，大致分為了「仿 人」、「類人」、「真人」三個階段， 當前處於「仿人」並走向「類人」階段。

在仿人階段，人形機器人執行任務，通常依賴於 預先編寫的程式 和有限的自動化技術。

試想一下，倘若你想讓機器人幫你進廚房裏炒菜，機器人的每一個動作，如切菜、攪拌、烹飪等，都需要事先進行詳細的編程。

這些編程指令包括如何移動機械手臂、如何控制力度、速度等各種參數的具體資訊。

程式之外的情況（比如今天的肉更難切一些），機器人都可能無法有效地應對。每遇到個新情況，你就得重新編程，告訴機器人該怎麽做，這多不方便啊……

那大模型是怎麽解決這一問題的？

具體來說，現階段大模型訓練機器人的方式主要有兩種： 多模態學習、端到端學習。

所謂多模態學習，利用視覺語言模型（VLM）進行場景理解，將描述輸入至大型語言模型（LLM）以得到自然語言指令，來讓機器人完成各種動作。

這方面比較突出的代表，是DeepMind的 RT-2模型 （Robotics Transformers）。

透過這個模型，機器人可以從網路和機器人數據中的各種視訊中學習，並將學到的知識轉化為機器人控制的通用指令。

具體來說，這個系統就像是給機器人裝上了一套高級的大腦和眼睛。首先，它的眼睛（VLM）能看懂周圍的環境，比如看到桌子上有個杯子，知道杯子在哪裏，長什麽樣。

然後，它的大腦（LLM）會根據眼睛看到的資訊，透過編碼器-解碼器結構，將影像特征轉換成語言描述，用人類的語言來描述這個場景，比如「拿起杯子」。

最後，這個大腦還會告訴機器人怎麽動，比如怎麽伸手，怎麽用力，確保機器人能正確地把杯子拿起來。

不過，在具體控制機器人時，RT-2本身並不直接獲取或調整機器人硬體的具體參數，如電機的電壓或電流。這些硬體參數的調整通常由機器人的控制系統負責，而RT-2模型提供的是高層次的動作指令。

在實際套用中，這些指令會被機器人的控制系統解析，並轉換為具體的硬體控制訊號，以驅動機器人執行任務。

端到端學習，就是試圖直接從輸入（如傳感器數據、影像、視訊等）到輸出（如動作、決策等）構建一個完整的模型。 例如之前提到的煮咖啡的Figure 01 機器人，就是一個明顯的端到端學習的例子。

在這個過程中，模型會透過觀看人類煮咖啡的視訊，逐漸學會其中的所有步驟。而要實作這點， 最關鍵的一步，就是模仿學習。

一般來說，模仿學習大致分為如下步驟：

首先，系統透過網路攝影機錄制視訊，或直接從人類操作者那裏收集傳感器數據。

對於某些難以或無法直接獲取專家動作數據的場景，例如自動駕駛、醫療手術等，模仿學習甚至能直接跳過後一步，直接透過看視訊學會相應的動作。

在具體學習過程中，首先，機器會從觀察數據中提取關鍵特征，這些特征可以是影像、聲音、以及物體的位置、運動軌跡、環境布局等。

之後，系統會分析數據，同時開始模型的訓練，並將輸入數據對映到輸出行為。

在這裏，數據到動作的對映，可以被視為一種物理上的因果關系。例如，當咖啡機處於特定的狀態（比如水溫達到一定溫度）時，應該執行特定的動作（比如開始泵送水）。

一旦模型被訓練好，機器人就可以開始模仿觀察到的「因果」。並在實際執行任務過程中，根據反饋不斷調整和最佳化。

可以說，正是由於有了大模型的加持，人形機器人才真正從一個亦趨亦步的「機器」，開始變得像一個會學習和應變的「人」。