新的人工智能驱动的 NoodleBot 将超越尖端机器人系统

2024-05-02科技

西北大学的工程师们创建了一种专门为智能机器人技术量身定制的人工智能（AI）算法。

新的人工智能（AI）算法，即最大扩散强化学习（MaxDiff RL），可激励机器人尽可能随机地调查周围环境，以获得广泛的经验。

在与其他人工智能平台的头对头试验中，采用西北大学最新算法的模拟机器人（如NoodleBot）始终领先于最先进的模型。

据该团队称，这种新算法有助于快速获取任务，机器人可以掌握新任务并在第一次尝试时完美地执行它们。这与现有的人工智能模型形成鲜明对比，后者通常依赖于较慢的试错学习过程。

该团队的研究细节发表在【 自然机器智能 】杂志上。

推进机器人数据收集

科学家、工程师和研究人员使用大量人工策划和过滤的大数据来训练机器学习算法。通过反复试验，人工智能从这个训练集中获得知识，并最终实现最佳结果。

然而，该团队声称这种方法不适用于机器人等具身人工智能系统，而适用于非具身系统，如ChatGPT和谷歌双子座（前身为Bard）。取而代之的是，机器人在没有人类策展人帮助的情况下自行收集数据。

研究人员强调，传统算法在两个关键方面与机器人技术不兼容。

「首先，无形系统可以利用物理定律不适用的世界。其次，个人失败没有后果，「领导这项研究的西北大学的托马斯·贝鲁埃塔在一份声明中说。

「对于计算机科学应用来说，唯一重要的是它大部分时间都能成功。在机器人技术领域，一次失败可能是灾难性的，「他补充道。

研究人员的目标是创造一种革命性的算法，保证机器人在移动时能够收集高质量的数据，以弥合这一差距。

从根本上说，MaxDiff RL指示机器人以更大的随机性移动，以收集有关其周围环境的全面、多样化的数据。机器人通过自我选择的随机体验进行学习，获得完成实际任务的基本能力。

更快、更有效的解决方案

采用MaxDiff RL方法的机器人经常在第一次尝试时就取得任务成功，即使他们没有先验知识。

「我们的机器人更快、更敏捷——能够有效地概括他们所学到的知识并将其应用于新情况。对于机器人无法承受无休止的试错时间的实际应用，这是一个巨大的好处，「Berrueta强调说。

MaxDiff RL 是一种通用算法，适用于许多不同的应用。研究人员希望它能为智能机器人的可靠决策打开大门。

该团队强调，该算法并非移动机器人平台所独有;它也适用于固定机器人，例如厨房机械臂学习装载洗碗机。

「随着任务和物理环境变得越来越复杂，在学习过程中考虑具身化的作用变得更加重要，」该研究的研究员兼合著者Allison Pinosky评论道。

「这是迈向执行更复杂、更有趣任务的真实系统的重要一步。