Yann LeCun不看好强化学习：「我确实更喜欢 MPC」

2024-08-27科技

人工智能， 这个曾经只存在于科幻小说中的概念 ，如今正以惊人的速度渗透进我们生活的方方面面， 从刷脸支付到个性化推荐 ，从智能家居到自动驾驶，人工智能正在悄然改变着我们的世界，而在人工智能领域，有一位学者始终站在浪潮之巅，他就是被誉为「深度学习三巨头」之一的YLC

LC不仅是M的首席人工智能科学家，更是卷积神经网络之父， 他在人工智能领域的影响力不言而喻 ，而这位AI大佬的一番言论， 再次引发了业界的广泛关注 ，他直言不讳地表示，自己并不看好强化学习这条技术路线，反而对模型预测控制（MPC）情有独钟，这一观点犹如一颗石子，投入了平静的湖面，激起了层层涟漪

图片来源于网络

LC的这番话
，并非空穴来风，事实上， 他一直以来都是强化学习的坚定批评者 ，在他看来， 强化学习虽然在某些领域取得了一定的成功 ，但其效率低下、泛化能力不足等缺陷，始终制约着它的进一步发展
相比之下
， LC更倾向于将MPC作为人工智能发展的重要方向 ，MPC是一种基于模型的控制方法，它通过预测系统未来的行为，来选择最优的控制策略，这种方法已经在工业控制领域应用多年，并取得了显著的成效
LC认为
，MPC具备强化学习所不具备的优势， 例如可解释性强、控制精度高、对模型的依赖性相对较低等 ， 他相信 ，MPC将成为未来人工智能发展的重要方向

图片来源于网络

那么
，LC为何对强化学习如此「不屑一顾」？MPC又有哪些过人之处， 能够赢得这位AI大佬的青睐？要解答这些问题 ，我们还得从强化学习和MPC本身说起
强化学习
，顾名思义， 就是让机器通过不断地试错 ，从环境中学习到最佳的行为策略，就像我们小时候学习骑自行车一样，一开始总是会摔倒， 但通过不断地练习 ，我们最终能够掌握平衡，熟练地骑行
强化学习在近年来取得了令人瞩目的成就
， AG战胜围棋世界冠军 ，OAIF在D2比赛中击败了职业战队， 这些都离不开强化学习技术的支持 ，强化学习也存在着一些难以克服的缺陷

图片来源于网络

强化学习的样本效率非常低
，这意味着，强化学习算法需要大量的训练数据才能学习到有效的策略， 以AG为例 ， 它训练了数月之久 ，才最终战胜了人类顶尖棋手

强化学习的训练过程通常非常耗时，这是因为强化学习算法需要不断地与环境交互， 并根据反馈来调整策略 ， 在复杂的环境中 ，这个过程可能需要数天甚至数周才能完成

强化学习的泛化能力也常常受到诟病
，这意味着， 强化学习算法在训练环境中学习到的策略 ，往往难以直接应用到新的环境中

图片来源于网络

强化学习的安全性也是一个不容忽视的问题，由于强化学习算法的行为具有一定的随机性，因此很难完全预测它在实际应用中会做出什么样的决策

正是由于这些缺陷
， LC对强化学习一直持怀疑态度 ，他认为，强化学习更像是一种「蛮力」方法，它依赖于大量的计算资源和数据，才能取得较好的效果
与强化学习不同
，MPC是一种基于模型的控制方法， 它首先需要建立一个能够描述系统行为的数学模型 ，然后根据这个模型来预测系统未来的状态，并选择能够使系统达到预期目标的控制策略

图片来源于网络

MPC的优势在于， 它能够利用模型信息来进行预测和优化 ，从而避免了强化学习中大量的试错过程， MPC的控制策略通常具有较强的可解释性 ，这使得人们更容易理解和信任它做出的决策

MPC已经在工业控制领域应用多年， 并取得了巨大的成功 ， 在化工生产过程中 ，MPC可以用来控制反应温度、压力等关键参数，从而提高产品质量、降低生产成本

近年来， 随着人工智能技术的快速发展 ， MPC也开始与机器学习技术相结合 ， 形成了一种新的控制方法 ，即ML-MPC，ML-MPC利用机器学习算法来学习系统的模型，从而克服了传统MPC方法中需要人工建立模型的局限性

图片来源于网络

LC对MPC的偏爱并非毫无道理， 他认为 ， MPC具备强化学习所不具备的优势 ，例如可解释性强、控制精度高、对模型的依赖性相对较低等， 他相信 ，MPC将成为未来人工智能发展的重要方向

LC的观点也并非没有争议， 一些学者认为 ，强化学习和MPC各有优劣，它们在不同的应用场景下都有各自的优势，在游戏、机器人控制等领域， 强化学习已经取得了令人瞩目的成就；而在工业控制、自动驾驶等领域 ，MPC则更具优势

未来
，强化学习和MPC将会如何发展？它们之间是否会融合，形成一种新的控制方法？这些问题， 还有待时间和实践来给出答案 ，但可以肯定的是， LC的观点 ，必将引发人们对人工智能发展方向的更深入思考

图片来源于网络

在人工智能领域
，总有一些话题如同夜空中闪烁的星辰，吸引着无数研究者的目光， 而强化学习与模型预测控制（MPC）的「较量」 ，无疑是其中最耀眼的一颗， YLC ，这位深度学习领域的泰斗级人物，对MPC的偏爱，更是为这场「较量」增添了一丝神秘的色彩
LC对强化学习的「不看好」
， 并非一时兴起 ，而是源于他对人工智能本质的深刻思考，在他看来，人类的学习并非完全依赖于海量数据的「喂养」，而是建立在对世界不断观察、预测和推理的基础之上

图片来源于网络

婴儿不需要通过触碰无数次滚烫的开水， 才能明白「烫」的含义；孩童也不需要无数次跌倒 ，才能学会走路， 他们总是在观察中学习 ， 在预测中行动 ，并在与世界的互动中不断完善自身的认知模型

而强化学习
，虽然在AG、OAIF等项目中取得了令人瞩目的成就，但其「试错」的学习方式，与人类的认知方式存在着本质区别， LC认为 ，这种依赖于海量数据和计算资源的学习方式， 效率低下且泛化能力有限 ，难以真正实现通用人工智能的目标

相比之下，MPC则更符合LC对人工智能的理解， MPC的核心思想是 ， 通过建立一个能够准确描述系统行为的模型 ， 来预测系统未来的状态 ，并根据预测结果选择最优的控制策略

图片来源于网络

这种「先预测
，后行动」的理念， 与人类的认知方式有着异曲同工之妙 ， 当我们开车行驶在道路上时 ，会根据路况、车流等信息，预测前方车辆的运动轨迹，并据此调整自己的驾驶行为，以确保行车安全
MPC的优势在于
，它能够利用模型信息来进行预测和优化， 从而避免了强化学习中大量的试错过程 ，MPC的控制策略通常具有较强的可解释性，这使得人们更容易理解和信任它做出的决策
MPC也并非完美无缺
， 它最大的挑战在于 ，如何建立一个能够准确描述现实世界复杂性的模型， 在很多情况下 ，建立一个完全准确的模型几乎是不可能的

图片来源于网络

为了克服这一难题， 研究人员开始探索将机器学习与MPC相结合 ， 利用机器学习算法从数据中学习系统的模型 ，从而实现更精准、更智能的控制， 这种融合了机器学习和控制理论的新方法 ，被称为ML-MPC

ML-MPC的出现， 为MPC的发展注入了新的活力 ，它不仅可以解决传统MPC方法中需要人工建立模型的难题，还可以利用机器学习算法强大的数据处理能力，处理更加复杂、更高维的控制问题

可以预见
， ML-MPC将在自动驾驶、机器人控制、智能制造等领域发挥越来越重要的作用 ，而LC对MPC的推崇，或许也将加速ML-MPC的研究和应用

图片来源于网络

无论是强化学习
，还是MPC， 都只是通往通用人工智能道路上的不同探索路径 ， 它们各有优劣 ，也存在着各自的局限性
强化学习
，如同一个充满好奇心的孩子，它通过不断地试错，来探索世界的奥秘， 它的学习方式虽然效率低下 ，但却充满了无限的可能性
MPC
，则像一位经验丰富的工程师，它利用模型和算法，来预测和控制系统的行为， 它的方法虽然严谨可靠 ，但却缺乏一定的灵活性