OpenAI最強競對Claude再次出牌

2024-10-26科技

出品｜虎嗅科技組

作者｜余楊

編輯｜苗正卿

頭圖｜視覺中國

10月22日，由Anthropic開發的Claude 3.5迎來重磅升級，釋出了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被稱為「十四行詩」（Sonnet），Anthropic公司在為其模型命名時，借鑒了文學藝術作品中的術語，其中包括「俳句」（Haiku）、「十四行詩」（Sonnet）和「傑作」（Opus），這些名稱不僅代表了模型的不同版本，也反映了它們在功能和效能上的特點。

Claude 3.5 Sonnet 有著更強的編程能力，全新功能的computer use（電腦使用），支持像人類一樣操作電腦，可以遵循使用者的命令在電腦螢幕上移動光標，點選相關位置，並透過虛擬鍵盤輸入資訊，模擬人們與自己電腦的互動方式。

目前，Claude 3.5 Sonnet 已投入使用。

Claude系列大語言模型，一直被廣泛認為是OpenAI的ChatGPT和谷歌的Gemini的主要競爭對手。 Anthropic在X中釋出了模型基準測試結果，與GPT和Gemini在多個領域進行橫向對比。

這些領域包括研究生水平的推理能力（GPQA Diamond）、本科生水平的知識掌握（MMLUPro）、程式碼編寫能力（Code HumanEval）、數學問題解決能力（MATH）、視覺問答能力（MMMU）以及代理編碼（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理測試（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的準確率拔得頭籌， Claude 3.5 Haiku則以41.6%的準確率則稍顯遜色。而Gemini 1.5 Pro 的準確率為59.1%，居於第二。在本科生水平知識測試（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的準確率領先，而Gemini 1.5 Pro 則以75.8%的準確率緊隨其後。

在此次主打的程式碼編寫能力測試（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的準確率取得了最佳成績，GPT-4o系列模型在這一測試中也展現了不錯的效能，準確率為90.2%和87.2%。

雖然在數學問題解決測試（MATH）中，Claude 3.5系列稍顯遜色，Gemini 1.5 Pro 仍然碾壓全場，但對於視覺問答測試（MMMU）和代理編碼測試（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有著不俗的表現。

而TO B的代理工具使用測試（TAU-bench），則直接關系到大模型的套用能力，此次主要測試了零售和航空領域。 Claude 3.5 Sonnet在零售和航空領域的準確率分別為69.2%和46.0%，而Claude 3.5 Haiku在零售和航空領域的準確率分別為51.0%和22.8%。

需要註意的是，OpenAI的o1模型家族由於其依賴於廣泛的預響應計算時間，與典型模型存在根本差異，這使得效能比較變得困難，因此在本次評估中被排除在外。

這可能不夠具像化。

Anthropic提供了一個演示，在2分鐘的影片中，研究員給Claude提出了一個指令：

我的朋友要來舊金山，我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發。你能幫我們找到一個絕佳的觀賞地點，檢視一下開車時間和日出時間，然後安排一個行事曆活動，讓我們有足夠的時間到達那裏嗎？

Claude的回應首先是，「讓我搜尋谷歌尋找最佳日出觀賞地點」，並自行開啟了Google開始搜尋。

Claude以使用者的居住地為出發點，在地圖中check了駕駛時間，隨後，Claude不僅開啟了一個新的網頁確認明天的日出時間，還在行事曆中設定了行程提醒，並附上了Notes，URL和附件。

開發者展示出Claude如何操控了自己的筆記電腦，絲滑地完成了一個任務。

Anthropic表示，「我們並沒有制作特定工具來幫助 Claude 完成單個任務，而是教它通用的電腦技能——允許它使用為人類設計的各種標準工具和軟件程式。我們構建了一個 API，使 Claude 能夠感知電腦界面並與之互動。該 API 使 Claude 能夠將提示轉譯成電腦命令。開發人員可以使用它來自動執行重復性任務、進行測試和 QA 以及進行開放式研究」。

在其他的demo中，開發者還讓Claude填寫了一份來自螞蟻器材公司的供應商請求表，需要填寫的數據散布在電腦的各個角落，Claude跨套用進行了搜尋，切換到CRM系統中，捲動頁面，尋找填表所需的所有資訊，然後送出了表格。

AI操作電腦的能力代表了一種全新的人工智能開發方法，國內開發者也顯示出在該領域深入的努力。

10月23日，在榮耀MagicOS 9.0釋出會上，新升級的YOYO智能體也展現出 AI 手機端操作能力的類似特質，不僅幫演示者送出了咖啡訂單，還填寫了博物館場館預約資訊。

一部份關註者對此滿懷期待，認為這意味著工作中許多不得不做的繁瑣事項，都可以交由AI 代勞了。

不過，雖然Claude已經取得了一些成績，但我們日常使用電腦時的許多操作，如拖拽、縮放等，Claude都還無法做到。

並且，它的操作仍然相對緩慢，且像人類一樣會出錯。在一次演示中，Claude不小心點選停止了一個長時間執行的螢幕錄制，導致所有錄像都付諸東流。而在另一次編碼演示中，Claude則突然「走神」，開始饒有興趣地瀏覽起黃石國家公園的照片。

但瑕不掩瑜，這並不妨礙我們像莎士比亞一樣，將Claude的新技術比作「夏日」。

本內容為作者獨立觀點，不代表虎嗅立場。未經允許不得轉載，授權事宜請聯系 [email protected]