Claude 3.5发布：模仿人类操作电脑，执行复杂任务，抢先OpenAI

2024-10-24科技

Anthropic发布了两款重磅AI模型：升级版的Claude 3.5 Sonnet和全新Claude 3.5 Haiku。Sonnet的代码能力显著提升，而Haiku性能达到此前最强模型Claude 3 Opus的水平，同时保持与上一代Haiku相近的速度与成本。

Claude 3.5 Sonnet让人瞩目的亮点是其全新的「计算机使用」能力。它能模仿人类操作电脑：查看屏幕、移动光标、点击按钮，并通过虚拟键盘输入文字。这项功能已开放beta测试，但仍处于实验阶段，部分操作可能不够完善。

开发者和网友反响热烈，纷纷尝试新功能。开发者在短短10分钟内就能完成API集成。Cursor工具也在第一时间接入了Claude 3.5系列，推动其在编程领域的快速落地。

AI操作计算机的意义与进展

AI直接使用计算机，是当前AI发展的重要突破。大部分工作需要通过电脑完成，如果AI能像人类一样使用软件，将解锁众多新应用，而无需定制工具。

Anthropic表示，他们在工具使用和多模态技术上的积累，为实现这一功能奠定了基础。Claude 3.5 Sonnet通过「查看屏幕—执行操作」实现这一交互。它具备图像解析和逻辑推理能力，能像人类一样操作鼠标和键盘。

研究人员展示了Claude的强大能力：在一个示例中，Claude帮助安排日程，查询地图、日出时间，并在日历中创建活动。此外，它还能自主完成复杂的编程任务，如下载代码、运行服务器、修复错误，并实时更新网站。

Claude还能简化繁琐的任务。例如，在处理供应商表单时，它能搜索CRM系统中的信息并自动填表。这类功能正在被Asana、Replit等公司用于高效执行多步骤任务。

尽管功能强大，Claude仍面临挑战。OSWorld测试表明，Claude在基于截图的任务中得分为14.9%，明显高于第二名的7.8%。多步任务中，得分提升至22%，但仍远低于人类的72.36%。

为安全考虑，Claude只在训练中使用少量简单软件，且未连接互联网。模型已展现出一定的自我纠错能力，能在遇阻时重试任务。

Anthropic称，实现这一目标的过程充满反复试验，但进展令人满意。Claude的计算机操作能力虽还不完善，但正朝着超越人类效率的方向不断演进。

研究方法与安全保障

Anthropic在多模态研究和工具使用基础上，训练Claude解读图像并执行计算机操作。它必须准确计算像素移动量，确保鼠标点击位置无误。训练初期仅限使用计算器和文本编辑器，不联网操作。

Claude具备将用户指令拆解为逻辑步骤并执行的能力，即使遇到障碍，也能自我纠正并重试任务。这些能力逐步迁移至更多复杂软件，使Claude的计算机使用技能不断提升。

尽管技术进步显著，但Anthropic优先关注现有风险，如提示词注入攻击。这类网络攻击可能通过屏幕截图输入恶意指令，导致Claude执行非预期操作。为此，Claude默认不使用用户数据或截图进行模型训练，防止隐私泄露。

Anthropic将Claude的计算机使用功能设定为AI安全等级2，不需要更高安全标准。这样能在风险上升前解决潜在问题，并为未来引入更严密的AI安全措施打下基础。

AI操作电脑的未来

Anthropic的创新在于反向思维：不再打造专用工具来适配AI，而是让Claude融入日常计算机环境，直接使用现有软件。通过API，Claude能将提示词转化为电脑命令，帮助开发者完成测试、QA及复杂任务自动化。

虽然Claude已达到技术前沿，但操作速度仍偏慢且易出错。它还无法完成拖拽、缩放等常见操作，并且通过连续截图拼接的方式观察屏幕，可能错过短暂通知或细微操作。

在Demo演示中也曾出现意外状况。例如，一次Claude意外终止了长时间屏幕录制，丢失所有录像；另一次，它突然「走神」，浏览起黄石国家公园的照片。这些问题表明，未来还有大量优化空间。

多家知名公司如Asana和Replit，已开始探索Claude的计算机使用能力，以完成复杂的多步骤任务。Replit正利用其UI导航能力开发Replit Agent，实现应用程序构建时的实时评估。

未来，这项技术将更加可靠，普通用户也能轻松上手。

Claude 3.5 Sonnet：软件开发领域的全新突破

Claude 3.5 Sonnet在行业基准测试中取得显著提升，尤其在编码和工具使用方面表现卓越。在SWE-bench Verified测试中，其编码性能从33.4%提升至49.0%，超越OpenAI o1-preview等所有公开可用模型。

在智能体工具使用测试TAU-bench中，Claude在零售领域的得分从62.6%提升至69.2%，航空领域则从36.0%跃升至46.0%。尽管性能大幅提高，但它仍保持了前代模型的运行速度和价格。

GitLab的测试表明，Claude在DevSecOps任务中的推理能力提高了10%，且没有增加延迟。Cognition反馈称，Claude在编码、规划和问题解决方面表现优异。The Browser Company也发现，Claude在自动化网络流程时超越了所有其他模型。

Claude 3.5 Sonnet不仅能模拟人类操作电脑，还能生成代码、识别错误并优化性能。其增强的推理能力使其成为智能对话系统的理想选择。它还能处理复杂文档问答任务，并从图表和示意图中提取信息，为数据分析和科学研究提供支持。

通过智能缓存和批处理API，Claude大幅降低了使用成本。如今，该模型已通过美国和英国安全研究所的联合测试，并可在Anthropic API、Amazon Bedrock和Google Cloud平台上使用，满足企业开发的多样需求。

Claude 3.5 Haiku：极致速度与性价比的完美融合

Claude 3.5 Haiku被称为Anthropic速度最快的模型，在保持与上一代Claude 3 Haiku相同成本和速度的同时，性能全面提升。在多项智能基准测试中，它甚至超越了最强的Claude 3 Opus。

在SWE-bench Verified测试中，Claude 3.5 Haiku取得40.6%的高分，超越了原版Claude 3.5 Sonnet和GPT-4o等先进模型。这使其在代码补全和开发任务中表现尤为出色。

该模型的核心优势包括低延迟响应、精准的指令执行和高效的工具使用能力，适用于用户产品、专门的子智能体任务，以及从购买记录或库存数据中生成个性化体验。

Claude 3.5 Haiku将在本月末登陆Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI，最初以文本模型形式发布，后续将支持图像输入。其定价为每百万输入Token 0.25美元，每百万输出Token 1.25美元，并可通过缓存技术节省90%的成本。

应用场景：

代码自动补全：提供准确代码建议，加速开发进程，提高软件团队的生产力。

智能聊天机器人：借助低延迟和增强对话能力，支持客户服务、电子商务和教育平台中的大规模互动。

数据提取与标注：高效处理非结构化数据，适用于金融、医疗和研究机构的数据管理需求。

实时内容审核：为社交平台和媒体组织提供快速、可靠的内容审核，确保平台安全性和合规性。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！