麻省理工學院(MIT)本周展示了一種全新的機器人訓練模型,該模型放棄了以往專註於特定數據集的訓練方法,轉而采用類似大型語言模型(LLMs)訓練時使用的海量資訊。
研究人員指出,模仿學習——即代理透過模仿執行任務的個體來學習——在遇到小的挑戰時可能會失敗。這些挑戰可能包括不同的光照條件、不同的環境設定或新的障礙物。在這些情況下,機器人沒有足夠的數據來適應這些變化。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
團隊借鑒了像GPT-4這樣的模型,采用了一種粗暴的數據驅動問題解決方式。
「在語言領域,數據就是句子,」該論文的主要作者Lirui Wang說。「在機器人領域,鑒於數據的多樣性,如果你想以類似的方式預訓練,我們需要不同的架構。」
團隊引入了一種新的架構,稱為異構預訓練變換器(HPT),它整合了來自不同傳感器和不同環境的資訊。然後使用變換器將數據整合到訓練模型中。變換器越大,輸出結果越好。
使用者隨後輸入機器人的設計、配置以及他們想要完成的任務。
「我們的夢想是擁有一個通用的機器人大腦,你可以下載並用於你的機器人,而無需任何訓練,」卡內基梅隆大學副教授David Held在談到這項研究時說。「雖然我們才剛剛開始,但我們將繼續努力,希望規模的擴大能像大型語言模型一樣,為機器人策略帶來突破。」
這項研究部份由豐田研究所資助。去年在TechCrunch Disrupt上,TRI展示了一種一夜之間訓練機器人的方法。最近,它達成了一個分水嶺的合作夥伴關系,將其機器人學習研究與波士頓動力的硬體結合起來。