当前位置: 华文世界 > 科技

Claude 3.5发布:模仿人类操作电脑,执行复杂任务,抢先OpenAI

2024-10-24科技

Anthropic发布了两款重磅AI模型:升级版的Claude 3.5 Sonnet和全新Claude 3.5 Haiku。Sonnet的代码能力显著提升,而Haiku性能达到此前最强模型Claude 3 Opus的水平,同时保持与上一代Haiku相近的速度与成本。

Claude 3.5 Sonnet让人瞩目的亮点是其全新的「计算机使用」能力。它能模仿人类操作电脑:查看屏幕、移动光标、点击按钮,并通过虚拟键盘输入文字。这项功能已开放beta测试,但仍处于实验阶段,部分操作可能不够完善。

开发者和网友反响热烈,纷纷尝试新功能。开发者在短短10分钟内就能完成API集成。Cursor工具也在第一时间接入了Claude 3.5系列,推动其在编程领域的快速落地。

AI操作计算机的意义与进展

AI直接使用计算机,是当前AI发展的重要突破。大部分工作需要通过电脑完成,如果AI能像人类一样使用软件,将解锁众多新应用,而无需定制工具。

Anthropic表示,他们在工具使用和多模态技术上的积累,为实现这一功能奠定了基础。Claude 3.5 Sonnet通过「查看屏幕—执行操作」实现这一交互。它具备图像解析和逻辑推理能力,能像人类一样操作鼠标和键盘。

研究人员展示了Claude的强大能力:在一个示例中,Claude帮助安排日程,查询地图、日出时间,并在日历中创建活动。此外,它还能自主完成复杂的编程任务,如下载代码、运行服务器、修复错误,并实时更新网站。

Claude还能简化繁琐的任务。例如,在处理供应商表单时,它能搜索CRM系统中的信息并自动填表。这类功能正在被Asana、Replit等公司用于高效执行多步骤任务。

尽管功能强大,Claude仍面临挑战。OSWorld测试表明,Claude在基于截图的任务中得分为14.9%,明显高于第二名的7.8%。多步任务中,得分提升至22%,但仍远低于人类的72.36%。

为安全考虑,Claude只在训练中使用少量简单软件,且未连接互联网。模型已展现出一定的自我纠错能力,能在遇阻时重试任务。

Anthropic称,实现这一目标的过程充满反复试验,但进展令人满意。Claude的计算机操作能力虽还不完善,但正朝着超越人类效率的方向不断演进。

研究方法与安全保障

Anthropic在多模态研究和工具使用基础上,训练Claude解读图像并执行计算机操作。它必须准确计算像素移动量,确保鼠标点击位置无误。训练初期仅限使用计算器和文本编辑器,不联网操作。

Claude具备将用户指令拆解为逻辑步骤并执行的能力,即使遇到障碍,也能自我纠正并重试任务。这些能力逐步迁移至更多复杂软件,使Claude的计算机使用技能不断提升。

尽管技术进步显著,但Anthropic优先关注现有风险,如提示词注入攻击。这类网络攻击可能通过屏幕截图输入恶意指令,导致Claude执行非预期操作。为此,Claude默认不使用用户数据或截图进行模型训练,防止隐私泄露。

Anthropic将Claude的计算机使用功能设定为AI安全等级2,不需要更高安全标准。这样能在风险上升前解决潜在问题,并为未来引入更严密的AI安全措施打下基础。

AI操作电脑的未来

Anthropic的创新在于反向思维:不再打造专用工具来适配AI,而是让Claude融入日常计算机环境,直接使用现有软件。通过API,Claude能将提示词转化为电脑命令,帮助开发者完成测试、QA及复杂任务自动化。

虽然Claude已达到技术前沿,但操作速度仍偏慢且易出错。它还无法完成拖拽、缩放等常见操作,并且通过连续截图拼接的方式观察屏幕,可能错过短暂通知或细微操作。

在Demo演示中也曾出现意外状况。例如,一次Claude意外终止了长时间屏幕录制,丢失所有录像;另一次,它突然「走神」,浏览起黄石国家公园的照片。这些问题表明,未来还有大量优化空间。

多家知名公司如Asana和Replit,已开始探索Claude的计算机使用能力,以完成复杂的多步骤任务。Replit正利用其UI导航能力开发Replit Agent,实现应用程序构建时的实时评估。

未来,这项技术将更加可靠,普通用户也能轻松上手。

Claude 3.5 Sonnet:软件开发领域的全新突破

Claude 3.5 Sonnet在行业基准测试中取得显著提升,尤其在编码和工具使用方面表现卓越。在SWE-bench Verified测试中,其编码性能从33.4%提升至49.0%,超越OpenAI o1-preview等所有公开可用模型。

在智能体工具使用测试TAU-bench中,Claude在零售领域的得分从62.6%提升至69.2%,航空领域则从36.0%跃升至46.0%。尽管性能大幅提高,但它仍保持了前代模型的运行速度和价格。

GitLab的测试表明,Claude在DevSecOps任务中的推理能力提高了10%,且没有增加延迟。Cognition反馈称,Claude在编码、规划和问题解决方面表现优异。The Browser Company也发现,Claude在自动化网络流程时超越了所有其他模型。

Claude 3.5 Sonnet不仅能模拟人类操作电脑,还能生成代码、识别错误并优化性能。其增强的推理能力使其成为智能对话系统的理想选择。它还能处理复杂文档问答任务,并从图表和示意图中提取信息,为数据分析和科学研究提供支持。

通过智能缓存和批处理API,Claude大幅降低了使用成本。如今,该模型已通过美国和英国安全研究所的联合测试,并可在Anthropic API、Amazon Bedrock和Google Cloud平台上使用,满足企业开发的多样需求。

Claude 3.5 Haiku:极致速度与性价比的完美融合

Claude 3.5 Haiku被称为Anthropic速度最快的模型,在保持与上一代Claude 3 Haiku相同成本和速度的同时,性能全面提升。在多项智能基准测试中,它甚至超越了最强的Claude 3 Opus。

在SWE-bench Verified测试中,Claude 3.5 Haiku取得40.6%的高分,超越了原版Claude 3.5 Sonnet和GPT-4o等先进模型。这使其在代码补全和开发任务中表现尤为出色。

该模型的核心优势包括低延迟响应、精准的指令执行和高效的工具使用能力,适用于用户产品、专门的子智能体任务,以及从购买记录或库存数据中生成个性化体验。

Claude 3.5 Haiku将在本月末登陆Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,最初以文本模型形式发布,后续将支持图像输入。其定价为每百万输入Token 0.25美元,每百万输出Token 1.25美元,并可通过缓存技术节省90%的成本。

应用场景:

代码自动补全: 提供准确代码建议,加速开发进程,提高软件团队的生产力。

智能聊天机器人: 借助低延迟和增强对话能力,支持客户服务、电子商务和教育平台中的大规模互动。

数据提取与标注: 高效处理非结构化数据,适用于金融、医疗和研究机构的数据管理需求。

实时内容审核: 为社交平台和媒体组织提供快速、可靠的内容审核,确保平台安全性和合规性。

如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!