Nvidia 的 Eureka 幫助機器狗完美平衡瑜伽球

2024-05-06科技

研究人員利用輝達的Eureka平台（一種人類水平的獎勵設計演算法）來訓練四足機器人在瑜伽球上保持平衡和行走。

DrEureka源自該平台，是一個大型語言模型（LLM）代理，專門用於編寫程式碼，以訓練機器人在模擬中的技能，並開發克服模擬與現實差距挑戰的解決方案。

研究人員聲稱，它可以無縫執行，從最初的技能獲取到實際實施的整個過程都是自動化的。這確保了從虛擬環境到實際部署的平穩過渡。

該團隊使用該平台對機器狗進行模擬訓練，然後將其轉移到真實的工作條件下。四足動物在第一次嘗試中就完成了任務，不需要微調。

來自賓夕法尼亞大學、德克薩斯大學奧斯丁分校和 Nvidia 的研究團隊的研究細節發表在 GitHub 上。

自動化模擬到真實的機器人

研究人員強調，將仿真中獲得的策略用於實際套用，在擴大機器人技能獲取方面具有重要前景。

盡管如此，模擬到真實的方法通常需要手動配置和調整任務獎勵函式和模擬物理參數，導致進展緩慢，需要大量的人力。

「傳統上，sim到real的轉移是透過域隨機化實作的，這是一個繁瑣的過程，需要專業的人類機器人專家盯著每個參數並手動調整，」 Nvidia 高級研究經理兼具身AI負責人Jim Fan在X上的一篇文章中說。

DrEureka 首先獲取任務和安全說明以及環境原始碼來啟動 Eureka。然後，Eureka 生成標準化的獎勵函式和策略。這些在各種模擬條件下進行測試，以開發對獎勵敏感的物理先驗。

然後，LLM 利用它來生成一系列域隨機化（DR）參數。最後，利用合成的獎勵和 DR 參數，DrEureka 訓練為實際部署做好準備的策略。

GPT-4 等尖端 LLM 配備了對摩擦、阻尼、剛度、重力等物理概念的廣泛內建理解。「我們（略微）驚訝地發現DrEureka可以勝任地調整這些參數並很好地解釋其推理，」Fan說。

真實世界的適應力

透過評估四足動物的運動，該團隊在各種現實世界的地形上系統地測試了DrEureka的策略。

結果顯示，與使用手動設計的獎勵和域隨機化設定訓練的策略相比，它們的穩健性和卓越的效能。

「DrEureka政策在現實世界中表現出令人印象深刻的穩健性，在各種現實世界的，不受控制的地形條件變化和幹擾下，熟練地平衡和行走在瑜伽球上，」研究中的研究人員說。

此外，DrEureka 的 LLM 獎勵設計子程式的增強透過整合安全指令超越了 Eureka 的能力。研究人員斷言，它在制作獎勵函式方面具有重要意義，這些獎勵函式對於實際部署來說足夠安全。

主要研究結果揭示了在DrEureka成功之前利用最初的Eureka政策建立獎勵感知物理學的重要性。此外，利用 LLM 對域隨機化參數進行采樣對於最佳化實際效能至關重要。

展望未來，研究人員表示，有許多方法可以進一步增強DrEureka。例如，目前，DrEureka 策略僅在模擬中進行訓練，但使用真實世界的故障作為反饋可以幫助 LLM 在後續叠代中更好地微調模擬到真實方法。

此外，研究中的所有任務和策略都完全依賴於機器人的內部感官輸入，整合視覺或其他傳感器可以提高策略效能和LLM反饋回路。