OpenAI最大竞争对手Anthropic发布新模型

2024-10-26科技

02:01

能自主完成研究、回复邮件以及处理其他后台工作的AI虚拟助手来了。

10月22日，美国人工智能初创公司Anthropic宣布推出升级版的Claude 3.5 Sonnet模型，升级后的Claude 3.5大语言模型，Anthropic声称会达到「仿佛一个人在电脑前工作」的效果。

它能够通过新的「计算机使用」（Computer Use）API，与任何桌面应用程序交互，模仿键盘输入、鼠标点击和移动等操作。Anthropic将其称为「下一代AI自我学习算法」，并相信这项技术有望在未来自动化经济中占有很大一部分。

02:01

演示视频里，研究人员向Claude 3.5 Sonnet提出了一个实际应用场(02:01)

Anthropic在官方博客中详细介绍了这项新功能的研发过程。他们训练Claude能够「看到」屏幕上发生的事情，然后使用可用的软件工具来执行任务。通过新的API，Claude可以计算需要移动鼠标的像素数，准确地点击屏幕上的正确位置，完成用户指令。

「我们并非为Claude设计特定的工具来完成个别任务，而是教它通用的计算机技能，让它能够使用为人类设计的各种标准工具和软件程序。」Anthropic表示。

为了实现该功能，Anthropic在工具使用和多模态方面做了很多前期工作。操作计算机需要理解和解释图像的能力——即屏幕截图。同时，还需要推理何时以及如何执行特定操作。通过训练，Claude学会了将用户的文本指令转化为一系列逻辑步骤，然后在电脑上执行。

例如，它可以帮助用户找到去金门大桥观看日出的最佳地点，查看驾车时间和日出时间，并在日历中安排活动；还可以自动编写网站代码，修复编程错误，甚至在用户构建应用程序时实时评估其性能。

尽管市场上已有其他能够自动化桌面任务的AI代理，如Relay、Induced AI和Automat，但Anthropic声称，新的Claude 3.5 Sonnet模型在性能和稳健性上领先于其他竞争对手。根据SWE-bench Verified基准测试，Claude 3.5 Sonnet在编码任务上得分从33.4%提升至49.0%，超过了所有公开可用的模型，包括OpenAI的旗舰模型o1-preview。

此外，Claude 3.5 Sonnet在TAU-bench测试中也表现出色，在零售领域的得分从62.6%提高到69.2%，在更具挑战性的航空领域则从36.0%跃升至46.0%。即使没有经过专门的训练，升级后的Claude 3.5 Sonnet在遇到障碍时还能自我纠错和重试，并能完成需要数十甚至数百步的目标。

不过，Claude的计算机使用功能目前仍有一定局限。例如，它在滚动、拖动、缩放等基本操作上还有困难，由于其通过截图并拼接的方式「观察」屏幕，可能会错过短暂出现的动作或通知。

安全问题也是一大关注点。此前的研究表明，即使是无法使用桌面应用程序的模型，如OpenAI的GPT-4o，在遭受「越狱」攻击时，也可能执行有害的多步骤行为，例如从暗网购买假护照。

Anthropic表示，他们采取了多项措施来防止滥用，例如不在训练中使用用户的截图和提示词，防止模型在训练期间访问网络，并开发了分类器，引导Claude避免高风险的行为，如在社交媒体上发帖、创建账户以及与政府网站交互。

「没有万无一失的方法，我们将持续评估和改进安全措施，以平衡Claude的能力和负责任的使用。」Anthropic强调。据悉，多家知名公司已经开始探索Claude的新功能，包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等。

Anthropic由前OpenAI成员Dario Amodei和Daniela Amodei创立，旨在开发安全、可靠的AI模型，其Claude系列大语言模型被广泛认为是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要竞争对手。此次Claude 3.5 Sonnet在关键性能指标上实现领先，展示了Anthropic在人工智能领域同样具有领先实力。

实习生王春澎湃新闻记者喻琰

(本文来自澎湃新闻，更多原创资讯请下载「澎湃新闻」APP)