Claude 3.5釋出：模仿人類操作電腦，執行復雜任務，搶先OpenAI

2024-10-24科技

Anthropic釋出了兩款重磅AI模型：升級版的Claude 3.5 Sonnet和全新Claude 3.5 Haiku。Sonnet的程式碼能力顯著提升，而Haiku效能達到此前最強模型Claude 3 Opus的水平，同時保持與上一代Haiku相近的速度與成本。

Claude 3.5 Sonnet讓人矚目的亮點是其全新的「電腦使用」能力。它能模仿人類操作電腦：檢視螢幕、移動光標、點選按鈕，並透過虛擬鍵盤輸入文字。這項功能已開放beta測試，但仍處於實驗階段，部份操作可能不夠完善。

開發者和網友反響熱烈，紛紛嘗試新功能。開發者在短短10分鐘內就能完成API整合。Cursor工具也在第一時間接入了Claude 3.5系列，推動其在編程領域的快速落地。

AI操作電腦的意義與進展

AI直接使用電腦，是當前AI發展的重要突破。大部份工作需要透過電腦完成，如果AI能像人類一樣使用軟件，將解鎖眾多新套用，而無需客製工具。

Anthropic表示，他們在工具使用和多模態技術上的積累，為實作這一功能奠定了基礎。Claude 3.5 Sonnet透過「檢視螢幕—執行操作」實作這一互動。它具備影像解析和邏輯推理能力，能像人類一樣操作滑鼠和鍵盤。

研究人員展示了Claude的強大能力：在一個範例中，Claude幫助安排日程，查詢地圖、日出時間，並在行事曆中建立活動。此外，它還能自主完成復雜的編程任務，如下載程式碼、執行伺服器、修復錯誤，並即時更新網站。

Claude還能簡化繁瑣的任務。例如，在處理供應商表單時，它能搜尋CRM系統中的資訊並自動填表。這類功能正在被Asana、Replit等公司用於高效執行多步驟任務。

盡管功能強大，Claude仍面臨挑戰。OSWorld測試表明，Claude在基於截圖的任務中得分為14.9%，明顯高於第二名的7.8%。多步任務中，得分提升至22%，但仍遠低於人類的72.36%。

為安全考慮，Claude只在訓練中使用少量簡單軟件，且未連線互聯網。模型已展現出一定的自我糾錯能力，能在遇阻時重試任務。

Anthropic稱，實作這一目標的過程充滿反復試驗，但進展令人滿意。Claude的電腦操作能力雖還不完善，但正朝著超越人類效率的方向不斷演進。

研究方法與安全保障

Anthropic在多模態研究和工具使用基礎上，訓練Claude解讀影像並執行電腦操作。它必須準確計算像素移動量，確保滑鼠點選位置無誤。訓練初期僅限使用小算盤和文字編輯器，不聯網操作。

Claude具備將使用者指令拆解為邏輯步驟並執行的能力，即使遇到障礙，也能自我糾正並重試任務。這些能力逐步遷移至更多復雜軟件，使Claude的電腦使用技能不斷提升。

盡管技術進步顯著，但Anthropic優先關註現有風險，如提示詞隱碼攻擊。這類網絡攻擊可能透過螢幕截圖輸入惡意指令，導致Claude執行非預期操作。為此，Claude預設不使用使用者數據或截圖進行模型訓練，防止私密泄露。

Anthropic將Claude的電腦使用功能設定為AI安全等級2，不需要更高安全標準。這樣能在風險上升前解決潛在問題，並為未來引入更嚴密的AI安全措施打下基礎。

AI操作電腦的未來

Anthropic的創新在於反向思維：不再打造專用工具來適配AI，而是讓Claude融入日常電腦環境，直接使用現有軟件。透過API，Claude能將提示詞轉化為電腦命令，幫助開發者完成測試、QA及復雜任務自動化。

雖然Claude已達到技術前沿，但操作速度仍偏慢且易出錯。它還無法完成拖拽、縮放等常見操作，並且透過連續截圖拼接的方式觀察螢幕，可能錯過短暫通知或細微操作。

在Demo演示中也曾出現意外狀況。例如，一次Claude意外終止了長時間螢幕錄制，遺失所有錄像；另一次，它突然「走神」，瀏覽起黃石國家公園的照片。這些問題表明，未來還有大量最佳化空間。

多家知名公司如Asana和Replit，已開始探索Claude的電腦使用能力，以完成復雜的多步驟任務。Replit正利用其UI導航能力開發Replit Agent，實作應用程式構建時的即時評估。

未來，這項技術將更加可靠，普通使用者也能輕松上手。

Claude 3.5 Sonnet：軟件開發領域的全新突破

Claude 3.5 Sonnet在行業基準測試中取得顯著提升，尤其在編碼和工具使用方面表現卓越。在SWE-bench Verified測試中，其編碼效能從33.4%提升至49.0%，超越OpenAI o1-preview等所有公開可用模型。

在智能體工具使用測試TAU-bench中，Claude在零售領域的得分從62.6%提升至69.2%，航空領域則從36.0%躍升至46.0%。盡管效能大幅提高，但它仍保持了前代模型的執行速度和價格。

GitLab的測試表明，Claude在DevSecOps任務中的推理能力提高了10%，且沒有增加延遲。Cognition反饋稱，Claude在編碼、規劃和問題解決方面表現優異。The Browser Company也發現，Claude在自動化網絡流程時超越了所有其他模型。

Claude 3.5 Sonnet不僅能模擬人類操作電腦，還能生成程式碼、辨識錯誤並最佳化效能。其增強的推理能力使其成為智能對話系統的理想選擇。它還能處理復雜文件問答任務，並從圖表和示意圖中提取資訊，為數據分析和科學研究提供支持。

透過智能緩存和批次處理API，Claude大幅降低了使用成本。如今，該模型已透過美國和英國安全研究所的聯合測試，並可在Anthropic API、Amazon Bedrock和Google Cloud平台上使用，滿足企業開發的多樣需求。

Claude 3.5 Haiku：極致速度與性價比的完美融合

Claude 3.5 Haiku被稱為Anthropic速度最快的模型，在保持與上一代Claude 3 Haiku相同成本和速度的同時，效能全面提升。在多項智能基準測試中，它甚至超越了最強的Claude 3 Opus。

在SWE-bench Verified測試中，Claude 3.5 Haiku取得40.6%的高分，超越了原版Claude 3.5 Sonnet和GPT-4o等先進模型。這使其在程式碼補全和開發任務中表現尤為出色。

該模型的核心優勢包括低延遲響應、精準的指令執行和高效的工具使用能力，適用於使用者產品、專門的子智能體任務，以及從購買記錄或庫存數據中生成個人化體驗。

Claude 3.5 Haiku將在本月末登陸Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI，最初以文本模型形式釋出，後續將支持影像輸入。其定價為每百萬輸入Token 0.25美元，每百萬輸出Token 1.25美元，並可透過緩存技術節省90%的成本。

套用場景：

程式碼自動補全：提供準確程式碼建議，加速開發行程，提高軟件團隊的生產力。

智能聊天機器人：借助低延遲和增強對話能力，支持客戶服務、電子商務和教育平台中的大規模互動。

數據提取與標註：高效處理非結構化數據，適用於金融、醫療和研究機構的數據管理需求。

即時內容稽核：為社交平台和媒體組織提供快速、可靠的內容稽核，確保平台安全性和合規性。

如果你覺得這篇文章對你有所幫助，歡迎點贊、收藏以及轉發分享。同時，請關註我，以獲取更多關於人工智能的最新資訊和見解！