Nvidia 的 Eureka 帮助机器狗完美平衡瑜伽球

2024-05-06科技

研究人员利用英伟达的Eureka平台（一种人类水平的奖励设计算法）来训练四足机器人在瑜伽球上保持平衡和行走。

DrEureka源自该平台，是一个大型语言模型（LLM）代理，专门用于编写代码，以训练机器人在模拟中的技能，并开发克服模拟与现实差距挑战的解决方案。

研究人员声称，它可以无缝运行，从最初的技能获取到实际实施的整个过程都是自动化的。这确保了从虚拟环境到实际部署的平稳过渡。

该团队使用该平台对机器狗进行模拟训练，然后将其转移到真实的工作条件下。四足动物在第一次尝试中就完成了任务，不需要微调。

来自宾夕法尼亚大学、德克萨斯大学奥斯汀分校和 Nvidia 的研究团队的研究细节发表在 GitHub 上。

自动化模拟到真实的机器人

研究人员强调，将仿真中获得的策略用于实际应用，在扩大机器人技能获取方面具有重要前景。

尽管如此，模拟到真实的方法通常需要手动配置和调整任务奖励函数和模拟物理参数，导致进展缓慢，需要大量的人力。

「传统上，sim到real的转移是通过域随机化实现的，这是一个繁琐的过程，需要专业的人类机器人专家盯着每个参数并手动调整，」 Nvidia 高级研究经理兼具身AI负责人Jim Fan在X上的一篇文章中说。

DrEureka 首先获取任务和安全说明以及环境源代码来启动 Eureka。然后，Eureka 生成标准化的奖励函数和策略。这些在各种模拟条件下进行测试，以开发对奖励敏感的物理先验。

然后，LLM 利用它来生成一系列域随机化（DR）参数。最后，利用合成的奖励和 DR 参数，DrEureka 训练为实际部署做好准备的策略。

GPT-4 等尖端 LLM 配备了对摩擦、阻尼、刚度、重力等物理概念的广泛内置理解。「我们（略微）惊讶地发现DrEureka可以胜任地调整这些参数并很好地解释其推理，」Fan说。

真实世界的适应性

通过评估四足动物的运动，该团队在各种现实世界的地形上系统地测试了DrEureka的策略。

结果显示，与使用手动设计的奖励和域随机化设置训练的策略相比，它们的稳健性和卓越的性能。

「DrEureka政策在现实世界中表现出令人印象深刻的稳健性，在各种现实世界的，不受控制的地形条件变化和干扰下，熟练地平衡和行走在瑜伽球上，」研究中的研究人员说。

此外，DrEureka 的 LLM 奖励设计子程序的增强通过集成安全指令超越了 Eureka 的能力。研究人员断言，它在制作奖励函数方面具有重要意义，这些奖励函数对于实际部署来说足够安全。

主要研究结果揭示了在DrEureka成功之前利用最初的Eureka政策创建奖励感知物理学的重要性。此外，利用 LLM 对域随机化参数进行采样对于优化实际性能至关重要。

展望未来，研究人员表示，有许多方法可以进一步增强DrEureka。例如，目前，DrEureka 策略仅在模拟中进行训练，但使用真实世界的故障作为反馈可以帮助 LLM 在后续迭代中更好地微调模拟到真实方法。

此外，研究中的所有任务和策略都完全依赖于机器人的内部感官输入，集成视觉或其他传感器可以提高策略性能和LLM反馈回路。