當前位置: 華文世界 > 科技

OpenAI最大競爭對手Anthropic釋出新模型

2024-10-26科技
02:01
能自主完成研究、回復郵件以及處理其他後台工作的AI虛擬助手來了。
10月22日,美國人工智能初創公司Anthropic宣布推出升級版的Claude 3.5 Sonnet模型,升級後的Claude 3.5大語言模型,Anthropic聲稱會達到「仿佛一個人在電腦前工作」的效果。
它能夠透過新的「電腦使用」(Computer Use)API,與任何桌面應用程式互動,模仿鍵盤輸入、滑鼠點選和移動等操作。Anthropic將其稱為「下一代AI自我學習演算法」,並相信這項技術有望在未來自動化經濟中占有很大一部份。
02:01
演示影片裏,研究人員向Claude 3.5 Sonnet提出了一個實際套用場(02:01)
Anthropic在官方網誌中詳細介紹了這項新功能的研發過程。他們訓練Claude能夠「看到」螢幕上發生的事情,然後使用可用的軟件工具來執行任務。透過新的API,Claude可以計算需要移動滑鼠的像質數,準確地點選螢幕上的正確位置,完成使用者指令。
「我們並非為Claude設計特定的工具來完成個別任務,而是教它通用的電腦技能,讓它能夠使用為人類設計的各種標準工具和軟件程式。」Anthropic表示。
為了實作該功能,Anthropic在工具使用和多模態方面做了很多前期工作。操作電腦需要理解和解釋影像的能力——即螢幕截圖。同時,還需要推理何時以及如何執行特定操作。透過訓練,Claude學會了將使用者的文本指令轉化為一系列邏輯步驟,然後在電腦上執行。
例如,它可以幫助使用者找到去金門大橋觀看日出的最佳地點,檢視駕車時間和日出時間,並在行事曆中安排活動;還可以自動編寫網站程式碼,修復編程錯誤,甚至在使用者構建應用程式時即時評估其效能。
盡管市場上已有其他能夠自動化桌面任務的AI代理,如Relay、Induced AI和Automat,但Anthropic聲稱,新的Claude 3.5 Sonnet模型在效能和穩健性上領先於其他競爭對手。根據SWE-bench Verified基準測試,Claude 3.5 Sonnet在編碼任務上得分從33.4%提升至49.0%,超過了所有公開可用的模型,包括OpenAI的旗艦模型o1-preview。
此外,Claude 3.5 Sonnet在TAU-bench測試中也表現出色,在零售領域的得分從62.6%提高到69.2%,在更具挑戰性的航空領域則從36.0%躍升至46.0%。即使沒有經過專門的訓練,升級後的Claude 3.5 Sonnet在遇到障礙時還能自我糾錯和重試,並能完成需要數十甚至數百步的目標。
不過,Claude的電腦使用功能目前仍有一定局限。例如,它在捲動、拖動、縮放等基本操作上還有困難,由於其透過截圖並拼接的方式「觀察」螢幕,可能會錯過短暫出現的動作或通知。
安全問題也是一大關註點。此前的研究表明,即使是無法使用桌面應用程式的模型,如OpenAI的GPT-4o,在遭受「越獄」攻擊時,也可能執行有害的多步驟行為,例如從暗網購買假護照。
Anthropic表示,他們采取了多項措施來防止濫用,例如不在訓練中使用使用者的截圖和提示詞,防止模型在訓練期間存取網絡,並開發了分類器,引導Claude避免高風險的行為,如在社交媒體上發帖、建立賬戶以及與政府網站互動。
「沒有萬無一失的方法,我們將持續評估和改進安全措施,以平衡Claude的能力和負責任的使用。」Anthropic強調。據悉,多家知名公司已經開始探索Claude的新功能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等。
Anthropic由前OpenAI成員Dario Amodei和Daniela Amodei創立,旨在開發安全、可靠的AI模型,其Claude系列大語言模型被廣泛認為是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要競爭對手。此次Claude 3.5 Sonnet在關鍵效能指標上實作領先,展示了Anthropic在人工智能領域同樣具有領先實力。
實習生 王春 澎湃新聞記者 喻琰
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)