OpenAI最大競爭對手Anthropic釋出新模型

2024-10-26科技

02:01

能自主完成研究、回復郵件以及處理其他後台工作的AI虛擬助手來了。

10月22日，美國人工智能初創公司Anthropic宣布推出升級版的Claude 3.5 Sonnet模型，升級後的Claude 3.5大語言模型，Anthropic聲稱會達到「仿佛一個人在電腦前工作」的效果。

它能夠透過新的「電腦使用」（Computer Use）API，與任何桌面應用程式互動，模仿鍵盤輸入、滑鼠點選和移動等操作。Anthropic將其稱為「下一代AI自我學習演算法」，並相信這項技術有望在未來自動化經濟中占有很大一部份。

02:01

演示影片裏，研究人員向Claude 3.5 Sonnet提出了一個實際套用場(02:01)

Anthropic在官方網誌中詳細介紹了這項新功能的研發過程。他們訓練Claude能夠「看到」螢幕上發生的事情，然後使用可用的軟件工具來執行任務。透過新的API，Claude可以計算需要移動滑鼠的像質數，準確地點選螢幕上的正確位置，完成使用者指令。

「我們並非為Claude設計特定的工具來完成個別任務，而是教它通用的電腦技能，讓它能夠使用為人類設計的各種標準工具和軟件程式。」Anthropic表示。

為了實作該功能，Anthropic在工具使用和多模態方面做了很多前期工作。操作電腦需要理解和解釋影像的能力——即螢幕截圖。同時，還需要推理何時以及如何執行特定操作。透過訓練，Claude學會了將使用者的文本指令轉化為一系列邏輯步驟，然後在電腦上執行。

例如，它可以幫助使用者找到去金門大橋觀看日出的最佳地點，檢視駕車時間和日出時間，並在行事曆中安排活動；還可以自動編寫網站程式碼，修復編程錯誤，甚至在使用者構建應用程式時即時評估其效能。

盡管市場上已有其他能夠自動化桌面任務的AI代理，如Relay、Induced AI和Automat，但Anthropic聲稱，新的Claude 3.5 Sonnet模型在效能和穩健性上領先於其他競爭對手。根據SWE-bench Verified基準測試，Claude 3.5 Sonnet在編碼任務上得分從33.4%提升至49.0%，超過了所有公開可用的模型，包括OpenAI的旗艦模型o1-preview。

此外，Claude 3.5 Sonnet在TAU-bench測試中也表現出色，在零售領域的得分從62.6%提高到69.2%，在更具挑戰性的航空領域則從36.0%躍升至46.0%。即使沒有經過專門的訓練，升級後的Claude 3.5 Sonnet在遇到障礙時還能自我糾錯和重試，並能完成需要數十甚至數百步的目標。

不過，Claude的電腦使用功能目前仍有一定局限。例如，它在捲動、拖動、縮放等基本操作上還有困難，由於其透過截圖並拼接的方式「觀察」螢幕，可能會錯過短暫出現的動作或通知。

安全問題也是一大關註點。此前的研究表明，即使是無法使用桌面應用程式的模型，如OpenAI的GPT-4o，在遭受「越獄」攻擊時，也可能執行有害的多步驟行為，例如從暗網購買假護照。

Anthropic表示，他們采取了多項措施來防止濫用，例如不在訓練中使用使用者的截圖和提示詞，防止模型在訓練期間存取網絡，並開發了分類器，引導Claude避免高風險的行為，如在社交媒體上發帖、建立賬戶以及與政府網站互動。

「沒有萬無一失的方法，我們將持續評估和改進安全措施，以平衡Claude的能力和負責任的使用。」Anthropic強調。據悉，多家知名公司已經開始探索Claude的新功能，包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等。

Anthropic由前OpenAI成員Dario Amodei和Daniela Amodei創立，旨在開發安全、可靠的AI模型，其Claude系列大語言模型被廣泛認為是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要競爭對手。此次Claude 3.5 Sonnet在關鍵效能指標上實作領先，展示了Anthropic在人工智能領域同樣具有領先實力。

實習生王春澎湃新聞記者喻琰

(本文來自澎湃新聞，更多原創資訊請下載「澎湃新聞」APP)