微软 AI CEO 穆斯塔法·苏莱曼：小型化模型是未来的发展方向

2024-11-07科技

本次对话的双方是微软 AI 的首席执行官 Mustafa Suleyman 和企业家 Reid Hoffman 。对话围绕人工智能（AI）的未来发展展开，深入探讨了其潜在影响力、技术挑战及创新成果。自成立以来，微软 AI 一直致力于推动人工智能技术的进步，通过创新的产品和服务显著提升用户体验和工作效率。目前，微软在 AI 领域不仅重视消费级应用，还积极参与技术基础设施的构建。

25:08

Mustafa Suleyman 和 Reid Hoffman 的核心观点包括：

智能代理与个性化特征的关系 ：未来的智能代理将与个性化特征密切相关，强调情感智能（EQ）与智商（IQ）的结合，以更好地满足用户需求。

技术的创新潜力与风险 ：AI 的创新潜力巨大，能够帮助人们更好地沟通和理解复杂问题。然而，完全自主性和自我改进的能力也带来了潜在风险，需引起重视。

智能代理的理解能力 ：未来的智能代理将具备更强的理解能力，能够实时观察和执行任务，从而提升用户的生活效率和创造力。

小型化模型的发展趋势 ：小型化模型将成为未来的发展方向，通过蒸馏技术实现高效学习，适应特定应用场景，降低使用门槛。

以下是本期播客内容的完整翻译，我们作了不改变原意的删减。

未来的智能代理与个性化特征密切相关

里德·霍夫曼（Reid Hoffman）

有时候，人们常常把 AI 比作一种生物体。想象一下，这就像是……（笑），从小规模开始发展，就如同我之前提到的那样。

里德·霍夫曼（Reid Hoffman）

将其视为理解人工智能的一种视角如何？在哪些方面它是有益的？在哪些方面可能会产生误导？这种视角应如何引导全球范围内的讨论和该方向发展的进程？

穆斯塔法·苏莱曼（Mustafa Suleyman）

我认为，当我们遇到某种全新事物时，就像面对从未见过的东西一样。每一次新的技术浪潮都会带给人们这样的感觉。设想一下，当电力第一次出现的时候，那该是多么神奇和疯狂；又或是通过电话线路与远在大西洋彼岸的人交谈，这该是多么令人震撼。这为我们的世界观带来了一种全新的可能性思维方式。

每当出现这种情况时，我们都会努力寻找合适的比喻，将其与已知事物联系起来。尽管最终它可能与我们已知的事物并不完全相同，但在它到来之前，这是我们能想到的最佳比喻。 因此，我提出数字新物种的比喻。 因为从整体上看它们的能力，这确实是最贴切的类比。虽然这也引发了一些关于我们不希望其成为那样的担忧，但我认为这恰当地框定了如何控制它们的问题。

这些模型将能够看到你所看到的，听到你所听到的，实时理解并与文本互动，并代表你采取行动。这些能力现在开始变得流行。我认为，将其比作物种是最合适的，这个比喻在思考我们不希望它成为的样子时也提供了有益的视角。

里德·霍夫曼（Reid Hoffman）

关于物种，我们必须做些什么，以及哪些是我们应尽量避免的，以更好地引导我们进入数字时代？顺便提一下，我推荐穆斯塔法的书【The Coming Wave】，这本书对此进行了深入探讨。

穆斯塔法·苏莱曼（Mustafa Suleyman）

我认为，这些模型的一个令人惊叹之处在于，它们并不会简单地输出你输入的内容。这正是软件的伟大目标之一，不是吗？我们期待它能告诉我们一些我们尚未知晓的事物。因此，我觉得用「幻觉」来描述似乎不太准确。我认为，这并不是缺点，而恰恰是一种优点，体现了创造性和互动性。

在创造性方面，我们期待在给定输入的情况下产生各种可能的反应，这种灵活性和模糊性正是我们所需。因此，让它们自主学习特征表示，而不是依赖我们手动设计特征，这正是过去 15 年机器学习的核心动机。如今模型能做到这一点，实在令人欣慰。

但我们需要弄清楚这种学习的界限在哪里。目前，还几乎没有出现递归式的自我改进。也就是说，不存在一个循环的自我改进过程，在没有人类直接监督的情况下进行。但是我们预计，到 2025 年，各团队将开始在这方面进行实验，因此，我认为这需要特别关注。

另一个问题是完全自主性。显然，如果这些模型能够在任意数字环境中交互，自动创建虚拟机、执行网页操作、调用 API，并在没有人类监督和控制的情况下自主运行，会带来额外的风险。这两种能力是我们该特别关注和担忧的。

里德·霍夫曼（Reid Hoffman）

从积极的角度出发来看。

穆斯塔法·苏莱曼（Mustafa Suleyman）

我认为，这些技术的积极一面在于其极大的创新潜力。我相信，它们可以帮助我们与更优秀的自我沟通。实际上，如果设计得当，它们不必表现得讽刺、批评或羞辱。虽然大多数人可能不喜欢讥讽的态度，但没必要让这些技术变得刻薄。有些开发者可能会设计出具有这些特性的 AI 伴侣，但这完全取决于设计者，而非必然结果。

我们应尽最大努力在生态系统、规范和价值观等方面限制这类现象。当然，仍然会有人这样做。然而，我认为这些技术仍有巨大的潜力帮助我们展现最好的一面。比如，我在三周前读到一篇关于某个真实小群体对阴谋论（例如「地平论」）的研究论文。

里德·霍夫曼（Reid Hoffman）

有多少这样的例子？

穆斯塔法·苏莱曼（Mustafa Suleyman）

的确，我想在可能的情况下还是避开有关选举的话题。不过，比如说，我认为我们都应该同意，「地平论」是一个非常荒谬的理论。有些人在与聊天机器人进行长时间的交流后，大约六周后，他们对阴谋论的信任度有所降低。这是因为聊天机器人有耐心且没有偏见。它不会贬低你，而是始终努力回到核心话题，通常引用有证据支持的科学文献。因此，我认为这能带来非常积极的效果，这样的结果让人非常惊喜。

里德·霍夫曼（Reid Hoffman）

我本打算稍后问这个问题，但我觉得现在问时机正好。我们在创办 Inflection 时，其中一个创办原则就是认为情商（EQ）和智商（IQ）同样重要。

穆斯塔法·苏莱曼（Mustafa Suleyman）

好的。

里德·霍夫曼（Reid Hoffman）

请简要谈谈这对 Pi （Inflection 旗下的人工智能聊天机器人）意味着什么，背后有哪些思考，以及为什么这在各个领域都很重要，不仅仅影响 Pi 本身。

穆斯塔法·苏莱曼（Mustafa Suleyman）

是的，我想说，我们通常可以认为 IQ（智商）包括答案的准确性、速度、全面性、相关性以及实时信息获取能力。在这些方面，我们都在稳步进步。我注意到，AI 研究者社区的人往往忽视了信息传递方式的重要性。他们常常以一种非常学究的方式，只是陈述事实，认为人们会明显看到这是正确的。

里德·霍夫曼（Reid Hoffman）

确实，这是工程思维。

穆斯塔法·苏莱曼（Mustafa Suleyman）

事实证明，这些模型在语气、风格和情感智能方面的表现（例如提问的方式和反映你可能使用的语言风格）在信息传递中对消费者而言，可能比单纯客观地复述维基百科上的内容更为重要。因此，我认为这是一个关键能力，现在每个人都在努力解决这个问题。 未来的智能代理不仅关注显而易见的行为，更与个性化特征密切相关。 我对个性化技术的实现非常感兴趣，因为我认为这将成为人们真正重视的东西。

里德·霍夫曼（Reid Hoffman）

那么，我们来谈谈未来代理的发展。请您为我们提供一些见解，比如从协作助手的角度来看，代理将如何发展？您对此有何看法？在未来两到五年内，代理会在我们的生活中扮演什么角色？从整体物种到具体代理，哪些是最重要的方面？我们应该如何与代理共存呢？

穆斯塔法·苏莱曼（Mustafa Suleyman）

迈向智能未来的第一步是让你的 AI 伙伴能够看到你所见到的东西。 一个真正能识别你屏幕、浏览器、桌面和手机内容的助手，意味着它能够持续接收视觉输入。这让你的 AI 伙伴可以观察到你所见的事物，你能够使用模糊的表达，如「记得我看到的那个东西吗」或者「那些东西在哪里」。这是前所未有的理解能力。这种理解力使得你的 AI 能以你的名义执行任务，如浏览网页、使用 API、预订、购买和规划。

目前，我们已经看到许多类似功能的精彩演示，表明这些技术在实际应用场景中还需要进一步完善。正如在 GPT-3 出现之前，许多大公司内部已经拥有的大语言模型在 2020 年、2021 年时尚未成熟。

让技术在 50%到 60%的时间里有效是一个良好的开端，但我们必须将其性能提升至 99%的准确率。语音识别和听写技术经过了 15 到 20 年的发展，直到过去两到四年才达到约 99.5%的准确率，个性化同样如此。因此，越来越多人使用语音技术，这不仅仅因为它的输入能力，还因为它的生成能力。我认为，实现这一目标可能还需要几年时间。

里德·霍夫曼（Reid Hoffman）

语音输入技术的进步让我深感认同，其中一个原因是生成式 AI 的革命使其更擅长参与对话，如我们多次讨论的那样。现在，你只需直接说出内容，生成式 AI 就能准确解读。那么，这将如何进一步提升代理的水平呢？

穆斯塔法·苏莱曼（Mustafa Suleyman）

是的，用户界面的设计或输入框的限制抽象地决定了我们可以在其中输入什么。由于搜索引擎的搜索框只有一个小窗口，我们学会了搜索的语言，对吧？将想法压缩成三到五个词，这甚至算不上一个完整的句子。

里德·霍夫曼（Reid Hoffman）

这个数字的平均值为 1.6，仅供参考。

穆斯塔法·苏莱曼（Mustafa Suleyman）

这些语音体验的有趣之处在于，当你与计算机互动时，它能激发你思维中的新角度。你可以用完整的句子进行交流，自行纠正，调整语句顺序，并融入即兴对话中的各种「杂质」。当模型以段落形式回应你时，你可能突然想到讨论一些从未数字化的主题。因此，我认为这提供了一个很好的框架，预示未来行为可能会发生的变化。

有一个几乎能处理任何数字任务的 AI 伙伴，你会让它帮助你完成一些现在不愿或无法在计算机上完成的任务。我认为这是一个重大的转变，因为实现目标的门槛将大幅降低。不仅因为边际成本为零，而且摩擦几乎消失。因此，你会想到一些过去因难度过大而未曾考虑的事情。

里德·霍夫曼（Reid Hoffman）

这种技术如何帮助我们提升创造力呢？与这些智能体互动可能激发哪些类型的创造力和灵感？

穆斯塔法·苏莱曼（Mustafa Suleyman）

想象一下，在一整天中，你脑海中会浮现出多少随机的想法、念头或问题。当你深入冥想你的潜意识时，会觉得许多瞬间的思绪，比如「我想知道」或「我觉得」，几乎是不经过语言组织的。由于没有人总是愿意倾听你分享各种想法，这些念头通常不会被说出口。你也未必总有精力去打字，因为用手机打字需要相当多的精力。我每天大约搜索五到八次，算是尽力了。因此，如果获取和整理这些想法的难度下降，你的创造性思维广度就会增加，这些思维将在你的 AI 助手的背景中显现。

此外，AI 的记忆能力将比其他能力更早实现。 我非常有信心，到 2025 年，永久记忆将成为现实。 现在我们已经可以在网上存储记忆，并且非常准确地检索信息。Copilot 能够提供很好的引用，它能实时更新到 15 分钟前，掌握最新的新闻和网络动态。我们只需将这些信息整合到你的个人知识图谱中，然后将其应用到文档、电子邮件和日历等工具中。

记忆能力将彻底改变这些体验，使你不再在有意义的对话或有趣的创意探索后，完全忘记曾经讨论的内容。因此，这也是一个重大的转变，因为它不仅降低了你表达创意的门槛，还防止了想法的遗忘。你可以模糊交叉地引用几周前提到的某件事情。

里德·霍夫曼（Reid Hoffman）

这和我们刚才讨论的事情有关吗？这更像是一场对话。

穆斯塔法·苏莱曼（Mustafa Suleyman）

这就像是一种对话。确实如此，这就像你有了第二个大脑，成为你想法的延伸。因此，情商（EQ）在这方面显得尤为重要。这完全正确。

小型化模型是未来的发展方向

里德·霍夫曼（Reid Hoffman）

现在让我们深入讨论业务战略层面的问题。很多企业家都会考虑如何预估该领域未来几年的发展。那么，有哪些需要注意的事项呢？

穆斯塔法·苏莱曼（Mustafa Suleyman）

好消息是，模型正在变得既大又小，这一趋势几乎肯定会持续。去年开始流行一种称为「蒸馏」的新方法。通过蒸馏，大型且智能、推理成本高的模型可以指导小模型，而小模型则能够通过 AI 的反馈进行强化学习。目前有强有力的证据表明，这种监督效果显著。

不过，规模仍然是重要因素。 我们还有很大的发展潜力，并会有大量数据支持这一趋势。因此，我认为至少在未来两到三年内，规模化模型将继续带来显著的性能提升。此外，还有新的模式正在加入。我们不仅增加了视频、图像等内容，更大的挑战在于理解我们感兴趣的行为轨迹，这些轨迹跨越了复杂的数字环境。从浏览器到桌面，再到手机，在不同的生态系统之间转换，无论是在封闭的环境中还是开放的网络内。我们正在努力理解这些轨迹，收集大量数据，并进行有监督的微调等。我相信这将带来许多令人印象深刻的成果。

里德·霍夫曼（Reid Hoffman）

另一个显而易见的观点是，关于数据的讨论可以从多个不同的角度切入。比较常见的问题是，我们可以使用哪些数据，这些数据的质量如何。我认为，这方面的讨论在网络上已经有大量的内容。然而，有一个方面可能尚未引起足够的关注，那就是新的数据来源。合成数据的吸引力在于，它能用于训练更好的小模型和大模型。那么，我们如何获取这些数据？又该如何确保这些数据能够成功整合？对于创业者来说，应该如何看待这些问题？

穆斯塔法·苏莱曼（Mustafa Suleyman）

当考虑一个引导语时，不仅仅是您向聊天机器人提问的内容。语言可能会带来困惑。问题本身并不是引导语。真正的引导语可能是一个三页的风格指南，里面包括一系列要模仿的示例。接下来，您向已经经过该引导语训练的模型提问。从这个角度来看，引导语就像是您的数据。它是高质量的指令集，为您的预训练模型提供指导，使其按照某种方式运行。

有趣的是，即便只有几页指令，模型的表现也可能与那些使用其他引导语的模型大相径庭。总而言之，为了让模型准确表现并真正遵循您的企业品牌价值观或独特产品，您需要展示数万个高质量行为的示例。这些示例必须嵌入模型中，这是基于高质量数据继续进行的预训练过程。

好消息是，对于许多小众领域或特定行业而言，数万个示例相对容易获得，这是一个优势。我认为，对于初创公司而言，在对预训练模型进行高质量微调方面有很大的机会。这样，您可以更好地坚持您所重视的行为准则。

里德·霍夫曼（Reid Hoffman）

企业家在使用和部署小型模型时应该怎么思考呢？显然，他们会借助 Microsoft、OpenAI、Google 等公司提供的前沿和大型模型，这些公司拥有价值数十亿美元的技术基础。然而，小型模型所带来的机会又该如何看待？企业家如何充分利用这些机会，创造出有趣且独特的产品或服务呢？

穆斯塔法·苏莱曼（Mustafa Suleyman）

是的，我的意思是， 我认为小型化绝对是未来的发展方向。 因为如果你考虑一下那些非常大的模型，当你向某个前沿模型提出问题时，它激活了数十亿个与当前查询并不相干的神经路径。让人惊讶的是，它居然能够如此高效地执行这一过程。

我是说，它能在每次生成标记时搜索或参考数亿个节点，这实在是不可思议，但其实并不必要。如果你有一个明确的应用场景，我认为我们应该做的就是将知识浓缩到更小、更经济的模型中，使其更易于携带和使用。

里德·霍夫曼（Reid Hoffman）

之前我从未听过你使用这个比喻。

穆斯塔法·苏莱曼（Mustafa Suleyman）

我现在想不出我能想到的最小的数字化事物。我甚至不确定它是否算作数字化。哦，我想起了一种——每天早晨迎接你的设备，它可以与您互动，可能是一种耳塞、可穿戴设备、耳环，或者甚至是带有小传感器的花盆。这似乎预示着一个无处不在的感知科技革命即将到来。

我认为这是一个充满潜力的领域，也是技术小型化的发展方向。 即使像冰箱磁贴这样的设备不太可能掌握太多量子计算的知识，但它可以在早晨迎接你，提供天气预报，简单介绍冰箱里的食物，或提醒你的日程。我相信，这样的设备可能只需要数千万个参数。人们在这一领域的探索还不够广泛，但对一个由两人组成的团队来说，这完全是可以研究的。确实如此。

里德·霍夫曼（Reid Hoffman）

作为创业活动中至关重要的一环，我希望在接下来的两天里，大家能思考一个重要的问题。虽然这个问题有些突然，但我会给你们充足的时间来考虑。我先分享一下我的看法。作为技术人员，我们应该思考哪些因素才能设计出一个更加人性化的未来？

当我们谈到「更加人性化」时，往往会联想到人类在过去几千年的行为和经验。这些当然很重要，但同样重要的是展望未来。在我们发展技术的同时，人性也在不断进化。我们的工具和设备正在影响着人类身份的变化，因此，我们不应该只关注我们具备的情感、热情和同情心。这些特质在我们与技术互动和发展的过程中展现出来。我向大家提出的关键问题便是设计。希望你们能利用这段时间认真思考。

穆斯塔法·苏莱曼（Mustafa Suleyman）

问问自己，你是否全力以赴了？因为现在确实是一个转折点。我真的认为，我们已经有足够的证据表明，在过去五十年中，随着技术的巨大变革，各个事物的结构已经被重新定义。

我认为，现在正是创立和扩展公司的最佳时机。 即使你不是企业家，而是一名活动家、组织者或学者，如今也是重新调整职业的好时机。因为到了 2050 年，形势将会大不相同。我们现在有机会共同塑造事物的发展方向，没有什么是注定的。我们完全有能力将其发展为最有利于人类的状态。我认为，我们非常幸运能够生活在这个时代，这种感觉充满力量，同时也伴随着巨大的责任。

里德·霍夫曼（Reid Hoffman）

我完全同意。现在你应该明白为什么了。我非常激动能够与 Mustafa 合作。谢谢你。