MIT推全新機器人訓練模型 用更簡單粗暴的方式解決問題

2024-11-05科技

麻省理工學院（MIT）本周展示了一種全新的機器人訓練模型，該模型放棄了以往專註於特定數據集的訓練方法，轉而采用類似大型語言模型(LLMs)訓練時使用的海量資訊。

研究人員指出，模仿學習——即代理透過模仿執行任務的個體來學習——在遇到小的挑戰時可能會失敗。這些挑戰可能包括不同的光照條件、不同的環境設定或新的障礙物。在這些情況下，機器人沒有足夠的數據來適應這些變化。

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

團隊借鑒了像GPT-4這樣的模型，采用了一種粗暴的數據驅動問題解決方式。

「在語言領域，數據就是句子，」該論文的主要作者Lirui Wang說。「在機器人領域，鑒於數據的多樣性，如果你想以類似的方式預訓練，我們需要不同的架構。」

團隊引入了一種新的架構，稱為異構預訓練變換器（HPT），它整合了來自不同傳感器和不同環境的資訊。然後使用變換器將數據整合到訓練模型中。變換器越大，輸出結果越好。

使用者隨後輸入機器人的設計、配置以及他們想要完成的任務。

「我們的夢想是擁有一個通用的機器人大腦，你可以下載並用於你的機器人，而無需任何訓練，」卡內基梅隆大學副教授David Held在談到這項研究時說。「雖然我們才剛剛開始，但我們將繼續努力，希望規模的擴大能像大型語言模型一樣，為機器人策略帶來突破。」

這項研究部份由豐田研究所資助。去年在TechCrunch Disrupt上，TRI展示了一種一夜之間訓練機器人的方法。最近，它達成了一個分水嶺的合作夥伴關系，將其機器人學習研究與波士頓動力的硬體結合起來。

MIT推全新機器人訓練模型用更簡單粗暴的方式解決問題