編輯:編輯部 HYZ
【新智元導讀】太科幻了,深夜上線的Claude,可以像人類一樣使用電腦了?檢視螢幕、移動光標、點選按鈕、輸入文本,還能尋找程式碼錯誤、自動搜集資訊填表。AI推理已至瓶頸,下一個爆破點,就是AI操作電腦!
Claude 3.5深夜迎來重磅升級!
不出所料,Anthropic AI這周終於有了大動作——正選Claude 3.5 Haiku,全新升級版Claude 3.5 Sonnet也來了。
不過,「超大杯」Opus依然沒有亮相。
讓人驚艷的是,前進演化後的Claude 3.5 Sonnet一舉擊潰OpenAI o1,堪稱最強推理模型。
它在各個方面得到了全面顯著的提升,尤其是業界領先的編碼能力。
而Claude 3.5 Haiku與上一代最強Claude 3 Opus效能相當,成本、速度與上一代Haiku相近。
甚至,Claude現在能夠像人類一樣操作電腦,不僅可以檢視螢幕、移動光標,還可以 單機 按鈕、鍵入文本!
Anthropic開發者關系主管表示,「電腦使用」是全新人機互動範式的第一步。同時也是,AI模型應該具備的全新基礎能力。
許多做瀏覽器智能體的初創公司,一夜之間過時了。
網友們紛紛感嘆:Agent和工作流都要變天了……
會自己用電腦的AI來了?
在公測中,Anthropic引入一項突破性的新功能:電腦使用能力。從今天起,開發者可以透過API,指導Claude像人類一樣使用電腦了。
Claude 3.5 Sonnet是首個在公測中提供此功能的模型。
當然,這項功能仍處於實驗階段,使用起來還有些笨拙,可能出錯。而Anthropic選擇提前釋出此功能,也是為了獲得開發者反饋,將之快速改進。
為什麽要訓練AI操作電腦?
Anthropic表示,在過去幾年裏,強大的AI開發已經達到了許多裏程碑,比如執行復雜邏輯推理,以及辨識和理解影像的能力。
而下一個突破點,就是AI操作電腦了!如果模型不必透過專門客製的工具進行互動,而是按指示就能使用所有軟件,這一定代表著未來的方向。
基本電腦操作
在這個demo中,Anthropic研究員給Claude提出了一個極有難度的挑戰:
我的朋友要來舊金山,我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發。你能幫我們找到一個絕佳的觀賞地點,檢視一下開車時間和日出時間,然後安排一個行事曆活動,讓我們有足夠的時間到達那裏嗎?
Claude自行開啟了Google,開始了搜尋。
金門大橋和使用者居住地有多遠呢?Claude會自己開啟地圖尋找距離。
了解所需資訊之後,它開啟了行事曆,為主人安排好了日程。
自動編碼寫網站
開發者展示出Claude如何操控了自己的筆記電腦,絲滑地完成了一個網站編程任務。
首先,Claude在小哥的Chrome瀏覽器中導航到了Claude.ai,並且讓Claude為自己創造了一個90年代主題的個人主頁。
只見它自己輸入網址,鍵入提示,向另一個Claude發出請求。
Claude.ai返回了一些程式碼,渲染出來的畫面看起來很不錯,但小哥希望在自己的電腦本地上對網站做一些修改。
於是他讓Claude下載檔,然後在VS Code中將其開啟。Claude成功完成了這些指令。
然後小哥讓Claude啟動了一個伺服器,然後就可以在瀏覽器中實際檢視這個檔了。
Claude開啟了VS Code終端,嘗試啟動一個伺服器,然後卻遇到了錯誤:機子上並沒有安裝Python。
結果,透過檢視終端輸出,Claude自己發現了這個問題!它用Python 3再次嘗試,成功執行起了伺服器。
不過,終端輸出中有個錯誤,頂部還缺少了一個檔圖示。開發者小哥請Claude來辨識這個錯誤,在檔中修復它。
令人驚喜的是,Claude在VS Code中找到了引發錯誤的行,刪除了整行,然後保存檔、重新執行網站。
這次,網站完全正確!
自動尋找數據填表
假設我們需要填寫一份來自「螞蟻器材公司」的供應商請求表,但需要填寫的數據散步在電腦的各個角落,Claude能幫我們完成嗎?
只見它開始截取小哥的螢幕截圖,並且很快發現:螞蟻器材公司並不在表格中。
這時,它立刻切換到CRM系統中,去搜尋這個公司。找到後,它開始捲動頁面,尋找填表所需的所有資訊,然後送出了表格。
這也就意味著,我們工作中許多不得不做的繁瑣事項,都可以交由Claude代勞了!
現在,這個功能已經在API中可用了。
現在,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司,已經在探索Claude的新潛能,讓它們執行數十步甚至數百步的復雜任務了。
比如,Replit正在利用Claude 3.5 Sonnet的電腦使用和使用者介面導航能力,為Replit Agent開發功能,在構建應用程式過程中對其即時評估。
遠低於人類,但未來可期
新升級後的Claude 3.5 Sonnet,電腦使用能力究竟如何?
在 OSWorld測試中,它在僅基於螢幕截圖的任務類別中得分為14.9%,明顯超越了排名第二的AI系統(7.8%)。
當允許更多操作步驟來完成任務時,Claude得分提高到了22.0%。
這表明模型與環境的多次互動,能夠最佳化任務效能。
雖然這一結果比之前有了大幅提升,但仍然遠低於人類72.36%的表現。
這也暗示了,Claude 3.5 Sonnet未來還有很大的改進空間。
畢竟,人類毫不費力完成的一些操作(捲動、拖動、縮放),目前對於Claude來說極具挑戰。
升級版Claude 3.5 Sonnet,編碼王者幹翻o1
在各項行業基準測試中,升級版Claude 3.5 Sonnet效能得到了全方位提升。
特別是,智能體編碼、工具使用任務中取得顯著突破。
論文地址:https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf
在編碼能力方面,它在SWE-bench Verified測試中,效能從33.4%大幅提升至49.0%。
這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為智能體編碼設計的專門系統。
此外,在TAU-bench(一項評估智能體工具使用能力的基準測試)中,Claude 3.5 Sonnet也表現出色:
在零售領域的得分從62.6%提高到69.2%,在更具挑戰性的航空領域則從36.0%躍升至46.0%。
從下表中,可以看出推理測試基準GPQA(Diamond)上,新版Claude 3.5 Sonnet大幅超越GPT-4o。
在視覺QA、數學推理、文件視覺問答、圖表問答、科學表格基準測試中,Claude 3.5 Sonnet效能成為業界新標桿。
值得一提的是,新版Claude 3.5 Sonnet效能突破同時,仍保持了與前代模型相同的價格和執行速度。
一些早期測試使用者的反饋,進一步印證了升級後Claude 3.5 Sonnet,在AI驅動編碼領域實作「質」的飛躍。
-
GitLab: 在DevSecOps任務測試中,發現Claude 3.5 Sonnet在不增加延遲的前提下,推理能力顯著提升(各用例最高提升10%),使其成為驅動復雜軟件開發流程的理想選擇
-
Cognition: 將新版Claude 3.5 Sonnet套用於自主AI評估,在編碼、規劃和問題解決等方面,相較前代模型均取得了實質性進步
-
The Browser Company: 在使用該模型自動化網絡工作流程時發現,Claude 3.5 Sonnet的表現超越了他們此前測試過的所有模型
此外,在安全部署前,Claude 3.5 Sonnet已經在美國AI安全研究所(US AISI)和英國安全研究所(UK AISI)進行了聯合測試。
而且,經過自身評估,Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標準仍然適用於新模型。
如前所述,升級版的Claude 3.5 Sonnet現在已經可以在網頁、終端APP上使用了。
API的定價起始為 每百萬輸入Token 3美元 , 每百萬輸出Token 15美元 。
透過使用智能緩存技術可節省高達90%的成本,而使用批次處理API則可節省50%成本。
套用場景
Claude 3.5 Sonnet能夠理解細微的指令和上下文,辨識並糾正自身錯誤,還能從復雜數據中生成深入的分析和洞察。結合最先進的編碼、視覺辨識和寫作能力,Claude 3.5 Sonnet可以被套用於各種場景。
- 模擬人類操作電腦
透過API整合Claude,開發者可以指導Claude像人類一樣使用電腦——透過觀察螢幕、移動滑鼠、點選按鈕和鍵入文字。Claude 3.5 Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型,雖然目前在公開測試階段仍具實驗性質,但其能力會隨時間持續提升。
- 程式碼自動生成
Claude 3.5 Sonnet可以協助整個軟件開發生命周期——從初始設計到錯誤修復,從系統維護到效能最佳化。可以直接將它被整合到產品中,或透過Claude.ai平台將其用作智能編碼助手。
- 智能對話系統
憑借增強的推理能力和親和、自然的語氣,Claude 3.5 Sonnet非常適合開發需要跨系統連線數據並執行操作的智能對話系統。
- 智能知識問答
Claude 3.5 Sonnet具有大規模上下文處理能力和極低的幻覺率,使其成為處理大型知識庫、文件和程式碼庫問答任務的理想選擇。
- 視覺資訊提取
Claude 3.5 Sonnet能夠輕松從圖表、圖形和復雜示意圖等視覺材料中提取資訊——這使其成為數據分析和數據科學任務的理想人工智能模型。
- 流程自動化
Claude 3.5 Sonnet能夠實作重復性任務或流程的自動化。它具備業界領先的指令執行能力,能夠處理復雜的流程和操作。
全新Claude 3.5 Haiku,智能超越上代老大哥
從上一代對標來看,Claude 3.5 Haiku稱得上是「最小杯」。
這是Anthropic速度最快的模型。
它不僅保持樂了與Claude 3 Haiku相同的執行成本和相近的處理速度,還在各項技能全面提升。
甚至,在多項智能基準測試中,Claude 3.5 Haiku 超越了上一代最強大的模型Claude 3 Opus 。
同樣,Claude 3.5 Haiku在編碼任務上的表現尤為卓越。
比如,在SWE-bench Verified測試中,它取得了40.6%的高分, 超越 了許多使用公開可用的最先進模型的AI智能體——包括原始版本的 Claude 3.5 Sonnet和GPT-4o 。
Claude 3.5 Haiku具備了三點突出優勢:
1. 低延遲響應
2. 更精準的指令執行能力
3. 更準確的工具使用
這些特性使得模型特別適用於,面向使用者的產品開發、專門的子智能體任務處理、基於海量數據(如購買記錄、價格資訊或庫存數據)生成個人化體驗。
本月末,Claude 3.5 Haiku將在多個平台上推出,包括Anthropic API、Amazon Bedrock和谷歌雲的Vertex AI。(最初會以純文本模型形式推出,隨後會加入影像輸入功能)
Claude 3.5 Haiku的定價起始為 每百萬輸入Token 0.25美元 , 每百萬輸出Token 1.25美元 。
透過使用提示詞緩存技術可節省高達90%的成本,而使用訊息批次處理API則可節省50%的成本。
套用場景
憑借快速的處理速度、改進的指令執行能力和更準確的工具使用,Claude 3.5 Haiku非常適合面向使用者的產品、專門的輔助任務,以及從海量數據中生成個人化體驗。
- 程式碼自動補全
Claude 3.5 Haiku能夠提供快速、準確的程式碼建議和補全,有效加速開發工作流程。特別適合那些希望簡化編碼過程並提高生產力的軟件開發團隊。
- 智能聊天機器人
借助增強的對話能力和快速的響應時間,Claude 3.5 Haiku在驅動能處理大量使用者互動的響應式聊天機器人方面表現出色。對於需要可延伸互動能力的客戶服務、電子商務和教育平台來說,它尤其有價值。
- 數據提取和自動標註
Claude 3.5 Haiku能高效處理和分類資訊,在快速數據提取和自動標註任務中表現優異。這一能力對於需要處理金融、醫療保健和研究領域大量非結構化數據的組織特別有用。
- 自動即時內容稽核
Claude 3.5 Haiku透過其改進的推理和內容理解能力,提供可靠、即時的內容稽核服務。這對於那些需要大規模維護安全、適當內容的社交平台、線上社區和媒體組織來說極具價值。
如何教會Claude操作電腦
Anthropic表示,人類輕松執行的操作——捲動、拖拽、縮放,目前對Claude來說仍然很有挑戰性。
而對於垃圾郵件、虛假資訊、欺詐這類風險,公司正在尋找安全部署的策略,比如開發了辨識系統,檢測是否發生危害。
研究過程
Anthropic在工具使用和多模態的工作,為AI辨識和解釋影像奠定了基礎。
在此基礎上,Claude還需要推理如何以及何時根據螢幕內容執行操作。
為此,研究者訓練Claude準確計算像素,從而完成命令,因為它必須計算出需要垂直或水平移動滑鼠指標多少像素,才能點選正確的位置。
在此期間,Claude迅速將學習成功從小算盤和文字編輯器這類簡單軟件的訓練中,遷移到了其他套用(註意,期間它不允許聯網)。
這種訓練讓它能將使用者指令轉化為一系列邏輯步驟,執行操作。遇到障礙時,甚至還能自我糾正、重試任務。
小插曲
Anthropic開發者關系主管Alex Albert還分享了,團隊在開發電腦使用功能時的一個有趣故事。
當時,他們舉行了一場工程師的bug bash(漏洞排查活動),以確保發現API所有潛在的問題。
這意味著,要把一群工程師關在一個房間裏幾個小時。
當時,恰好大家都餓了。其中一位工程師靈機一閃,「不如讓Claude來個實戰演習,自主開啟DoorDash幫我們訂餐」。
沒想到,大約一分鐘後,Claude為工程師們定來了披薩。
展望未來
AI操作電腦能力代表了一種全新的人工智能開發方法。
迄今為止,LLM開發者一直在努力使工具適應模型,創造特殊的環境,讓AI使用專門設計的工具來完成各種任務。
現在,Anthropic「反其道而行之」——他們選擇讓模型去適應工具。也就是,Claude能像人類一樣,融入我們日常使用的電腦環境,直接使用現有的軟件。
雖然Claude已經達到了當前的最高水平,但它的操作仍然相對緩慢且容易出錯。我們日常使用電腦時的許多操作,如拖拽、縮放等,Claude都還無法做到。
此外,Claude目前觀察螢幕的方式類似於快速翻閱一本「畫冊」——透過連續截圖並拼接在一起,而不是觀察連續的影片流。這意味著它可能會錯過一些短暫的動作或通知。
有趣的是,Anthropic在錄制Demo時,還遇到了一些有趣的小插曲。
比如,在一次演示中,Claude不小心點選停止了一個長時間執行的螢幕錄制,導致所有錄像都付諸東流。
而在另一次編碼演示中,Claude則突然「走神」,開始饒有興趣地瀏覽起黃石國家公園的照片。
總之,Claude如今的表現讓人對未來充滿期待:AI操作電腦的能力將神速進步,那一天,軟件開發小白都能輕松使用它。