2024新的一年註定將會不平凡!
人形機器人似乎已經站在了技術與夢想的十字路口。
以往科幻片中那些 機器仆人,似乎真的走進現實了, 炒蝦、疊衣服、煮咖啡,做家務……等等。
讓我們想象一下,你在周末剛剛睡醒,一個人形機器人走了進來,並且端著一杯熱騰騰的咖啡走到了你面前。
聽起來像是科幻片,對吧?
感覺這種情況似乎很遙遠。
但今年一月,Figure公司的一款煮咖啡機器人Figure 01,讓這樣的場景成為了現實。
在看了10小時的人類演示影片後,該機器人可以自主開啟咖啡機蓋,放入咖啡包,按下開始按鈕,一氣呵成地完成整個煮咖啡過程。
難得的是,當咖啡包沒放準時候,它甚至還會自動糾正。
而在這類「細活「上,國產機器人其實也顯現出了不俗的實力。
例如去年智元機器人的遠征AI,就在演示中展示了多個生活化的套用場景。
例如在廚房裏打個雞蛋什麽的。
給家裏老人端茶送水什麽的,也不在話下。
即使是在實驗室裏制備樣本這樣的精細操作,也照樣手到擒來。
同樣在2023世界機器人大會上,一個名叫MagicLab的國產人形機器人,也十分嫻熟地演示了咖啡拉花手藝:
其動作之流暢、自如,實在讓人感動。
除了這種需要靈巧和精準度的操作外,某些很需要「力量」的場景,人形機器人也開始嶄露頭角。
例如波士頓動力的機器人,在搬運物體方面就是目前的行業翹楚。
這矯健的身手,提著重物一路小跑上樓梯,過獨木橋,也完全不帶含糊的。
到達目的地後,還十分聰明地來了個回身跳,用轉身時的慣性將包甩到了高處。
凡此種種,無不讓人驚呼:「臥槽!難道科幻片就要成真了?」
那麽,為何人形機器人,會在2023集中地湧現出各種「驚喜」?種種華麗的技術奇觀背後,人形機器人,真的要從科幻走進現實了嗎?
變革元年2023
如果要論2023年,人形機器人最大的變數是什麽,哪恐怕就是 AI大模型的套用 。
從物理維度上說,人形機器人由三個模組組成,分別是「肢體」「小腦」和「大腦」,而大模型的出現,相當於給人形機器人換了個「大腦」。
而這,也是機器人具備自主感知和決策能力的關鍵。
換句話說,以後人類想讓機器人學一種新活,只需要讓它觀察人類的範例,並在實踐中不斷從錯誤中學習,逐步提高自己的技能即可。
而這在大模型沒出現之前,是不可想象的。
從總體上而言,人形機器人的發展,大致分為了
「仿
人」、「類人」、「真人」三個階段,
當前處於「仿人」並走向「類人」階段。
在仿人階段,人形機器人執行任務,通常依賴於
預先編寫的程式
和有限的自動化技術。
試想一下,倘若你想讓機器人幫你進廚房裏炒菜,機器人的每一個動作,如切菜、攪拌、烹飪等,都需要事先進行詳細的編程。
這些編程指令包括如何移動機械手臂、如何控制力度、速度等各種參數的具體資訊。
程式之外的情況(比如今天的肉更難切一些),機器人都可能無法有效地應對。每遇到個新情況,你就得重新編程,告訴機器人該怎麽做,這多不方便啊……
那大模型是怎麽解決這一問題的?
具體來說,現階段大模型訓練機器人的方式主要有兩種:
多模態學習、端到端學習。
所謂多模態學習,利用視覺語言模型(VLM)進行場景理解,將描述輸入至大型語言模型(LLM)以得到自然語言指令,來讓機器人完成各種動作。
這方面比較突出的代表,是DeepMind的
RT-2模型
(Robotics Transformers)。
透過這個模型,機器人可以從網絡和機器人數據中的各種影片中學習,並將學到的知識轉化為機器人控制的通用指令。
具體來說,這個系統就像是給機器人裝上了一套高級的大腦和眼睛。首先,它的眼睛(VLM)能看懂周圍的環境,比如看到桌子上有個杯子,知道杯子在哪裏,長什麽樣。
然後,它的大腦(LLM)會根據眼睛看到的資訊,透過編碼器-解碼器結構,將影像特征轉換成語言描述,用人類的語言來描述這個場景,比如「拿起杯子」。
最後,這個大腦還會告訴機器人怎麽動,比如怎麽伸手,怎麽用力,確保機器人能正確地把杯子拿起來。
不過,在具體控制機器人時,RT-2本身並不直接獲取或調整機器人硬件的具體參數,如電機的電壓或電流。這些硬件參數的調整通常由機器人的控制系統負責,而RT-2模型提供的是高層次的動作指令。
在實際套用中,這些指令會被機器人的控制系統解析,並轉換為具體的硬件控制訊號,以驅動機器人執行任務。
端到端學習,就是試圖直接從輸入(如傳感器數據、影像、影片等)到輸出(如動作、決策等)構建一個完整的模型。
例如之前提到的煮咖啡的Figure 01 機器人,就是一個明顯的端到端學習的例子。
在這個過程中,模型會透過觀看人類煮咖啡的影片,逐漸學會其中的所有步驟。而要實作這點,
最關鍵的一步,就是模仿學習。
一般來說,模仿學習大致分為如下步驟:
首先,系統透過網絡攝影機錄制影片,或直接從人類操作者那裏收集傳感器數據。
對於某些難以或無法直接獲取專家動作數據的場景,例如自動駕駛、醫療手術等,模仿學習甚至能直接跳過後一步,直接透過看影片學會相應的動作。
在具體學習過程中,首先,機器會從觀察數據中提取關鍵特征,這些特征可以是影像、聲音、以及物體的位置、運動軌跡、環境布局等。
之後,系統會分析數據,同時開始模型的訓練,並將輸入數據對映到輸出行為。
在這裏,數據到動作的對映,可以被視為一種物理上的因果關系。例如,當咖啡機處於特定的狀態(比如水溫達到一定溫度)時,應該執行特定的動作(比如開始泵送水)。
一旦模型被訓練好,機器人就可以開始模仿觀察到的「因果」。並在實際執行任務過程中,根據反饋不斷調整和最佳化。
可以說,正是由於有了大模型的加持,人形機器人才真正從一個亦趨亦步的「機器」,開始變得像一個會學習和應變的「人」。