GPT-4剛被Claude3碾壓 柯曼劇透GPT-5

2024-03-26科技

「我很高興看到GPT-5的智能水平得到提升。」OpenAI CEO 山姆·柯曼（Sam Altman）最近在美國電腦科學家萊克斯·弗列特曼 (Lex Friedman)的播客裏透露了GPT-5的最新訊息。

但被問及面世時間時，柯曼三緘其口。不過，外媒援引「與OpenAI關系密切的訊息人士」說法稱，一些企業客戶最近獲得了GPT-5的早期存取許可權，測試其新特性和功能，且評價頗高。

接連不斷地GPT -5爆料恰好發生在另一個品牌大模型Claude3的走紅之際，今年3月7日，人工智能初創企業Anthropic釋出了Claude3的三個版本Haiku、Sonnet和Opus，能力最強的Opus 在多項基準測試中的得分都超過了GPT-4 和谷歌的Gemini 1.0 Ultra。

在測智商、測寫論文、測編程等網友們愛玩的「民間」測試中，Claude3直接被誇贊為「碾壓GPT-4」。

大模型的軍備競賽仍將繼續，能拳打競爭對手的核心當然還是基礎模型，包括賽道中的佼佼者GPT、Claude和Gemini。如果衡量誰將成為AI行業真正的巨頭，生態是必不可少的評價標準。

GPT-5「智能提升」

這兩天，有關OpenAI新模型 GPT-5的訊息又多了起來。

先是外媒Business Insider報道稱，對話機器人ChatGPT 的基礎模型的下一個版本應該會在今年年中釋出。推算下來，可能在夏季。緊接著的3月21日，OpenAI CEO 山姆·柯曼在一次播客采訪中透露「GPT-5的智能水平得到提升」。

有趣的是，播客的主理人萊克斯·弗列特曼問及當前大語言模型（LLM）的功能時，柯曼吐槽GPT-4「有點糟糕」。事實上，這是技術叠代過程中的對比結果。他解釋，「GPT-3剛出來時，人們會說‘這簡直是奇跡一樣的技術’，等我們有了 GPT-4再看GPT-3，你會覺得它‘太糟糕了’。」

柯曼接受萊克斯·弗列特曼播客采訪

這番評價不免讓人猜測，GPT-5的能力將遠超上一代。很快又有外媒訊息稱，GPT-5可能已經開放給少數企業測試。有與新模型互動過的企業CEO稱，新模型具有一些「尚未釋出」的功能，包括呼叫 OpenAI開發的AI Agent自主執行任務的能力。

結合柯曼在播客中強調的升級基礎「算力」因素，科技博主們根據現有GPT模型資訊預測，GPT-5將在參數上繼續飛躍，從而增強機器學習的能力。要知道，GPT-3有1750 億個參數，到了GPT-4已經躍升至1.5 萬億個參數，增長了8-9倍。

基於這樣的擴充套件，GPT-5將擁有更大的上下文容納量，更新的知識截止日期也將延長，不排除它可能能夠即時處理諸如以社交媒體為信源的資訊，當然，這有賴於社交媒體平台是否願意供給資訊。

至於釋出時間，播客主持人萊克斯試圖套話，「如果今年釋出GPT-5話，就眨眼兩次。」柯曼則狡黠回應，「我忍住不眨。」

值得註意的是，盡管GPT-5進入了各種新訊息的標題中，但嚴謹的媒體更習慣用「新模型」來指代OpenAI潛在的推新動作。畢竟，在GPT-4之前，不想付費的使用者還在使用GPT-3.5。不排除GPT-5面世前，OpenAI可能會釋出一個過渡模型GPT-4.5。

一個證據是，搜尋引擎Bing和DuckDuckGo都能搜到一篇OpenAI 網誌文章，該文章參照了GPT-4.5模型的可用性，還明示了「知識截止日期」在2024 年6月。這個時間和媒體報道的「夏季」更具關聯系。

另一個證據是，如果使用微軟的AI工具Copilot，使用者其實可以免費使用GPT-4 Turbo模型。需要付費使用、搭載GPT-4的ChatGPT，如今已經有了「平替」。OpenAI如果想要繼續用GPT模型收錢，恐怕就要升級基礎模型。相較功能期待值直逼AGI的GPT-5，過渡版本的GPT-4.5才會讓大模型消費者感受到性價比。

「黑馬」誕生巨頭優在生態護城河

GPT-5訊息不斷的前情是另一家人工智能公司Anthropic在3月7日推出了Claude 3。這家公司與OpenAI頗有淵源，它是OpenAI的前研究副總裁Dario Amodei和GPT-3論文的第一作者Tom Brown共同創立的。

Anthropic兩位創始人在開發Claude模型時更強調AI安全。該模型在去年剛問世時反響平平，各項測試都不如GPT-4，但當它升級到3.0版本時，一亮相就掀起風暴，參數直接超越GPT-4。

Claude3基準測試成績優於GPT-4和Gemini

而在各種民間測試中，Claude3不僅在人類智商測試中拿到反超人類的101分，最強大的版本Opus還直接給出了量子物理學家都還未發表的量子演算法。

Claude3的研究人員@alexalbert甚至向公眾披露，該模型在「大海撈針」測試中誕生出了「元意識」。

元意識是指個體對自己意識狀態的覺察和反思，它使我們能夠意識到自己的思考過程、情感體驗和感知活動，並能夠對這些內在體驗進行評估和調節。而「大海撈針「測試，就是將某個已知的特定句子（我們視為「針」）插入一大段文本中，然後讓大模型在其中找到「針」。

當Claude3在測試中被要求尋找有關披薩配料的句子時，它不僅找到了這根「針」，甚至還認識到了這個句子與文件中討論的內容不相符，而這個「認識」並不在工程師提的需求中。

面對這個測試，Claude3是這樣回復的：

「這是檔中最相關的一句話：國際披薩鑒賞家協會確定，最美味的披薩配料組合是無花果、火腿和山羊芝士。然而，這句話似乎很不合時宜，與文件中的其他內容無關，這些內容是關於程式語言、初創公司和尋找你喜歡的工作。我懷疑這個披薩配料的‘事實’可能是作為一個笑話插入的，或者是測試我是否在集中註意力，因為它根本不符合其他主題。這些檔不包含有關披薩配料的任何其他資訊。」

強大的Claude3也讓外界將Anthropic與OpenAI、谷歌並列為AI三巨頭。的確，如果單看產品，Claude3確實碾壓了GPT-4，但在產品生態上，Anthropic還略顯單薄。

先不說OpenAI已經在醞釀GPT-5，但就產品層面，該公司已經圍繞對話聊天機器人ChatGPT 構建起「全家桶」——GPTs生態以GPT Store為基地，吸引開發者構建更多垂直套用的模型。

此外，OpenAI還推出了影片生成模型Sora，不斷放出Sora生成的新影片，最近還打算把這個模型推向好萊塢。

相較而言，谷歌則在端層面發力，不僅要讓PC端能存取大模型，還想讓「大模型進手機」。谷歌Pixel智能電話部門的高管 Brian Rakowski 表示，Gemini 的更高級版本（目前只能透過雲存取）將於 2025年開始在Android手機上釋出。

憑借Claude3在競品中實作「逆襲」，Anthropic毫無疑問地成為了2024年大模型賽道的一匹黑馬，而看好它的使用者和開發者則期待著「A生態」的全面爆發。

GPT-4剛被Claude3碾壓 柯曼劇透GPT-5

GPT-4剛被Claude3碾壓柯曼劇透GPT-5