WRC大咖论道｜荷兰代尔夫特理工大学教授Jens Kober - 科技

2024-10-24科技

2024世界机器人大会以 「共育新质生产力共享智能新未来」 为主题，为期三天的主论坛和26场专题论坛上，416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果，深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇，共同打造了一场十分精彩的机器人领域前沿观点盛宴！

在8月24日上午的主论坛上，荷兰代尔夫特理工大学教授Jens Kober以 【机器人通过交互学习】 为主题发表演讲。

以下是对话内容实录

Jens Kober（荷兰代尔夫特理工大学教授）

大家好，我是来自荷兰代尔夫特理工大学的教授。我们听到了不同的机器学习和人工智能的形式，今天我要聚焦一个专门的领域，我参观了一下刚才的展馆，有一些机器人可以握手，非常有趣。

这是一个人形机器人，它在使用炒锅，当然这是一个幽默的场景，这种技能需要几个模块，也是我感兴趣的，也是今天我要讲的。

刚才一位嘉宾所讲的高瞻远瞩的和抽象的理论层面以及和一些基础的应用层面相比，我是处在中间的层面，我们在模仿学习和强化学习方面进行探讨，使机器可以模仿人类，但是就像人类汽车一样，机器人在复杂的环境下需要不停的学习，一些简单的动作可以快速的学会，就像我图片上展示的，左边是简单的模仿，右边是在复杂环境下需要学习。我们如果不能和教练或者教我们的家长互动，就不可能学习和训练，最重要的不光是获得一些鼓励，还告诉我们你应该怎样练习以及如何改正一些错误。

所以我们可以通过不同的方式来互动，我们可以在AI和机器学习上看到越来越多这种模式的发生，我们可以通过互动进行教学，产生类似人类持续的互动，可以给它进行一些额外的演示，定期的间歇性的反馈，有越来越多的机器学习和AI的输出，包括它给我们带来各种的利益，包括可以增加执行速度，执行复杂任务，可以让机器人感知我们的直觉，这是需要我们人类做教师的地方。

不光是人，包括这些动物也可以成为机器人的教师，这就是我们的一个代理人教师和环境对机器人进行的教学，它可以有一些行动、状态的修正，还有对错误进行修正。中间是教师，他可以观察机器人的现状以及它是否有出错，有的时候需要接入，给予一些反馈和修正，有各种的因素可以考虑（作为教师来说），比如进行展示，让机器人学习，向他展示应该做的是什么或者是给予反馈，你是做对了还是做错了，是成功了还是失败了，这是教师可以做的，对于人类教师来说很简单，但是能做的也比较有限。

所以对于教师来说，要想做更复杂的反馈和教学，对于人类来说也是比较复杂的一个负担，比如说导航的方向，比如说向左边一点、向右边一点、加速、减速等，这些相对简单，但是整体的导航就比较复杂。

给大家一些例子，如何将机器学习和教师的反馈进行结合，以及参数的更新，进行最后结果的修正，由教师进行反馈，各种不同的模仿、机器学习和摄动全部放在一起。

后面有一个人用键盘比如说操控向左向右移动，这是从0开始的学习，在经过了15次的使用以后，最后它可以用杯子接住球，再放一次慢动作，所以这是基于视觉的量化信息做出的图表，它从头开始学习，使用了一次次的实验，它的准确度或者说学习的成本不断降低，蓝线是只用介入，只用展示，可以看到它的速度很快，但最后它的水平开始扁平，所以成本也并没有降到很低。如果看到蓝线上，它和绿线基本上是一致的，但是最后它的位置低于绿线，说明机器最后学习的效果更好。

我们之所以对此感兴趣，就是可以让人和机器人进行优势互补，人类对于模糊的概念，对于设计是比较擅长的，但是在精准的执行这方面是不如机器人的。另外一方面，机器人对于细节的事情，对于执行事物是非常擅长的，它可以进行微调，但是从全局来看事情是不容易的，所以我们可以做一个互补。

我们来看最后一公里的问题，就是怎样让机器人能够更好的完成优化。我跳过这几页，下面看一下互动模仿学习，这是从示范当中来学习，从模仿当中进行学习的一种方法。

首先，我们做的互动学习方式是教会机器人一种运动。我们对相应的轨迹并不感兴趣，感兴趣的是环境互动，也就是施加力控制以及扭矩控制等等。

另外一个案例是考虑到互动不同模态时，这里考虑到的执行是一方面让机器人做展示如何移动他的机器臂。如果大家不是机器人专家可能不是很熟悉。一个机器臂展示，另外一个机器臂进行模仿。如果人类和机器人接触会改变机器人过去的行动轨迹，它施加的力也要变化，这要有实时微调。所以我们这里要及时切换到不同的互动模式，并且通过六个方向进行控制。

与此同时可以观察轨迹，右边紫色部分是有人互动时轨迹变化。另外硬度或者轨迹僵硬度的变化，以此可以进行微调，让机器人很好地完成刚才展示的移动任务。最开始是非常经典的展示，让人移动机器手，让机器臂自己进行复制。我们及时调整，有人手参与时，机器臂需要施加的力比较大，自己运动时不需要那么大的力。我们有博士生从事这个项目，改善机器人的僵硬性。做了一定测试之后看一下这个方法是否好用。

这是另外一个案例，这里挑战是如何更好地让机器人完成。在超市里让机器人帮忙上货，这里在5秒钟之内完成微调，不然超市老板对此不敢兴趣。不仅仅可以识别移动物体，而且可以控制方向，有另外的模态加速动作。这里可以通过迭代，拿起拾取时间非常精确，要教会他具有鲁棒性的轨迹，确保在时间上的精确性。这是一个实时视频，没有快进，就是机器人把饮料放到货架上一共用5秒钟时间。

还可以把类似的想法放到其他任务上，可以尝试不同的任务，比如说把两个饮料箱叠起来。首先要人去教，用两个机器臂共同完成。一开始是分别教，发现机器臂协作时会有问题。现在纠正移动，两个机器臂同时教，与此同时教会两个机器臂之间的协同。刚才可以看到他们是同步行动的，但是平衡没有保持得很好，所以这里又训练了一遍。要专注于执行任务当中的顺序，刚才给大家展示了多种不同方式，如何和机器人进行互动会有不同的模式。

这背后还有更多可以探索的，考虑人扮演更加主动的角色，可以看到蓝色这些起泡相当于机器人的老师，它会跳出来说你要这么做，或者刚才做得不太对，要怎么纠正，来做一些强化学习。与此同时也可以考虑右上角的机器人扮演主动角色，它在困惑时会主动向它的老师寻求帮助，这里面也有一些不确定性。就是之前说到的，首先要有示范，然后让机器人学习。机器人如果学不会可以再问，这也是现在新的方式。

这两种方式不论教还是学，机器人都需要人类的老师提供帮助，我也希望和大家分享这里有几种互动的方法。包括有信号的算法，不同地方可以用不同算法，这是视频中的展示，我们这里的任务就是推动箱子到指定位置。

一般情况下需要考虑到平面摩擦力，箱子重量等等。人类老师可以跳出来主动纠正或者机器人主动寻求帮助，要有一个反馈或者辅助，或者机器人问这里合适的执行任务方法是什么呢。所以大家可以看到如果您是这篇论文的一作的话这当中有很多的重要内容，实验室里有其他的学生他们其实很困惑，我们做事情有很多种选择，选择哪一种是最合适的呢？

没时间放视频了，但是有这个方法让机器人完成任务移动物体而且很快速地完成，所以我们把大语言模型把互动学习方式整合到一起，我们使用大语言模型做言语控制，让人和机器人做什么，要使用基于这样的控制板的方式让机器人知道我们要做拾取移动物体的工作。这里的挑战在于经常可能会有一定的不确定度。在这里如果语言不够精确或者没有看过其他人的一些事例的话，机器人可能会困惑，他可能会有两种选择。这是一个简化的设置，我们要给机器人任务的话，他可能是这样做的。

如果机器人现在不确定是有两种选择的，我们要移动物体，会要求澄清，要老师给他们反馈，他们可以从中更加快速学习，而且需要数据量也更低。

这是最后一个展示事例，今天给大家看的绝大多数案例都是单一任务的，但是如果想要把它们整合在一起按顺序执行也是很有趣的，这就是我们通过电子部件循环利用给出灵感，来做挑战盒子的方法。首先有一个事例看一下机器人怎么做，它要拔出再插入这样的电器元件，可能它不能直接起到作用，我们给机器人一些纠正，并且也有一些指示，帮助他们更精确地定位，或者做视觉辅助完成高精度的韧度给他们提供更多的信息，让机器人更好地规划轨迹完成任务。

下面是让机器人打开盖子，机器人认为这种用线缆绕一下的方式更有效率，不需要额外工具，它可以充分利用自己现有的线缆作为工具，再把电器元件插回去会有其他的任务后续可能做些测试，把它插好之后可能还需要把盖子再盖上。

因为时间关系，做个总结。如何通过互动交流来叫机器人，可能有些有趣的益处包括加速机器人学习过程，它可以让人类老师还有机器人学生之间有优势互补。对于专业化或者定制化技能这种互动式教学方式非常有用。刚才看到的模型都很好也非常有用，但是总是会有更多的任务可能业界也不希望把自己内部数据都交出来用于模型训练。所以通过互动式的教学，我们可以完成非常精密、个性化的任务。

我相信在未来可能需要更多的高校教导机器人技能方法，也可以把这种方法和其他的方法整合。刚才说了可以使用大语言模型做更高层序列的规划。我们可以使用语言模型做任务解读，告知机器人如何执行任务并且给它们言语上的反馈。

如果大家对此感兴趣，可以看到这里尚未解决的问题是人类希望怎么教学。所以不光要让机器人学得有效率，也希望我们教得更有效率，就说到这里，谢谢大家

（本文根据录音整理）