Anthropic釋出了兩款重磅AI模型:升級版的Claude 3.5 Sonnet和全新Claude 3.5 Haiku。Sonnet的程式碼能力顯著提升,而Haiku效能達到此前最強模型Claude 3 Opus的水平,同時保持與上一代Haiku相近的速度與成本。
Claude 3.5 Sonnet讓人矚目的亮點是其全新的「電腦使用」能力。它能模仿人類操作電腦:檢視螢幕、移動光標、點選按鈕,並透過虛擬鍵盤輸入文字。這項功能已開放beta測試,但仍處於實驗階段,部份操作可能不夠完善。
開發者和網友反響熱烈,紛紛嘗試新功能。開發者在短短10分鐘內就能完成API整合。Cursor工具也在第一時間接入了Claude 3.5系列,推動其在編程領域的快速落地。
AI操作電腦的意義與進展
AI直接使用電腦,是當前AI發展的重要突破。大部份工作需要透過電腦完成,如果AI能像人類一樣使用軟件,將解鎖眾多新套用,而無需客製工具。
Anthropic表示,他們在工具使用和多模態技術上的積累,為實作這一功能奠定了基礎。Claude 3.5 Sonnet透過「檢視螢幕—執行操作」實作這一互動。它具備影像解析和邏輯推理能力,能像人類一樣操作滑鼠和鍵盤。
研究人員展示了Claude的強大能力:在一個範例中,Claude幫助安排日程,查詢地圖、日出時間,並在行事曆中建立活動。此外,它還能自主完成復雜的編程任務,如下載程式碼、執行伺服器、修復錯誤,並即時更新網站。
Claude還能簡化繁瑣的任務。例如,在處理供應商表單時,它能搜尋CRM系統中的資訊並自動填表。這類功能正在被Asana、Replit等公司用於高效執行多步驟任務。
盡管功能強大,Claude仍面臨挑戰。OSWorld測試表明,Claude在基於截圖的任務中得分為14.9%,明顯高於第二名的7.8%。多步任務中,得分提升至22%,但仍遠低於人類的72.36%。
為安全考慮,Claude只在訓練中使用少量簡單軟件,且未連線互聯網。模型已展現出一定的自我糾錯能力,能在遇阻時重試任務。
Anthropic稱,實作這一目標的過程充滿反復試驗,但進展令人滿意。Claude的電腦操作能力雖還不完善,但正朝著超越人類效率的方向不斷演進。
研究方法與安全保障
Anthropic在多模態研究和工具使用基礎上,訓練Claude解讀影像並執行電腦操作。它必須準確計算像素移動量,確保滑鼠點選位置無誤。訓練初期僅限使用小算盤和文字編輯器,不聯網操作。
Claude具備將使用者指令拆解為邏輯步驟並執行的能力,即使遇到障礙,也能自我糾正並重試任務。這些能力逐步遷移至更多復雜軟件,使Claude的電腦使用技能不斷提升。
盡管技術進步顯著,但Anthropic優先關註現有風險,如提示詞隱碼攻擊。這類網絡攻擊可能透過螢幕截圖輸入惡意指令,導致Claude執行非預期操作。為此,Claude預設不使用使用者數據或截圖進行模型訓練,防止私密泄露。
Anthropic將Claude的電腦使用功能設定為AI安全等級2,不需要更高安全標準。這樣能在風險上升前解決潛在問題,並為未來引入更嚴密的AI安全措施打下基礎。
AI操作電腦的未來
Anthropic的創新在於反向思維:不再打造專用工具來適配AI,而是讓Claude融入日常電腦環境,直接使用現有軟件。透過API,Claude能將提示詞轉化為電腦命令,幫助開發者完成測試、QA及復雜任務自動化。
雖然Claude已達到技術前沿,但操作速度仍偏慢且易出錯。它還無法完成拖拽、縮放等常見操作,並且透過連續截圖拼接的方式觀察螢幕,可能錯過短暫通知或細微操作。
在Demo演示中也曾出現意外狀況。例如,一次Claude意外終止了長時間螢幕錄制,遺失所有錄像;另一次,它突然「走神」,瀏覽起黃石國家公園的照片。這些問題表明,未來還有大量最佳化空間。
多家知名公司如Asana和Replit,已開始探索Claude的電腦使用能力,以完成復雜的多步驟任務。Replit正利用其UI導航能力開發Replit Agent,實作應用程式構建時的即時評估。
未來,這項技術將更加可靠,普通使用者也能輕松上手。
Claude 3.5 Sonnet:軟件開發領域的全新突破
Claude 3.5 Sonnet在行業基準測試中取得顯著提升,尤其在編碼和工具使用方面表現卓越。在SWE-bench Verified測試中,其編碼效能從33.4%提升至49.0%,超越OpenAI o1-preview等所有公開可用模型。
在智能體工具使用測試TAU-bench中,Claude在零售領域的得分從62.6%提升至69.2%,航空領域則從36.0%躍升至46.0%。盡管效能大幅提高,但它仍保持了前代模型的執行速度和價格。
GitLab的測試表明,Claude在DevSecOps任務中的推理能力提高了10%,且沒有增加延遲。Cognition反饋稱,Claude在編碼、規劃和問題解決方面表現優異。The Browser Company也發現,Claude在自動化網絡流程時超越了所有其他模型。
Claude 3.5 Sonnet不僅能模擬人類操作電腦,還能生成程式碼、辨識錯誤並最佳化效能。其增強的推理能力使其成為智能對話系統的理想選擇。它還能處理復雜文件問答任務,並從圖表和示意圖中提取資訊,為數據分析和科學研究提供支持。
透過智能緩存和批次處理API,Claude大幅降低了使用成本。如今,該模型已透過美國和英國安全研究所的聯合測試,並可在Anthropic API、Amazon Bedrock和Google Cloud平台上使用,滿足企業開發的多樣需求。
Claude 3.5 Haiku:極致速度與性價比的完美融合
Claude 3.5 Haiku被稱為Anthropic速度最快的模型,在保持與上一代Claude 3 Haiku相同成本和速度的同時,效能全面提升。在多項智能基準測試中,它甚至超越了最強的Claude 3 Opus。
在SWE-bench Verified測試中,Claude 3.5 Haiku取得40.6%的高分,超越了原版Claude 3.5 Sonnet和GPT-4o等先進模型。這使其在程式碼補全和開發任務中表現尤為出色。
該模型的核心優勢包括低延遲響應、精準的指令執行和高效的工具使用能力,適用於使用者產品、專門的子智能體任務,以及從購買記錄或庫存數據中生成個人化體驗。
Claude 3.5 Haiku將在本月末登陸Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,最初以文本模型形式釋出,後續將支持影像輸入。其定價為每百萬輸入Token 0.25美元,每百萬輸出Token 1.25美元,並可透過緩存技術節省90%的成本。
套用場景:
程式碼自動補全: 提供準確程式碼建議,加速開發行程,提高軟件團隊的生產力。
智能聊天機器人: 借助低延遲和增強對話能力,支持客戶服務、電子商務和教育平台中的大規模互動。
數據提取與標註: 高效處理非結構化數據,適用於金融、醫療和研究機構的數據管理需求。
即時內容稽核: 為社交平台和媒體組織提供快速、可靠的內容稽核,確保平台安全性和合規性。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關註我,以獲取更多關於人工智能的最新資訊和見解!