遙遙領先的GPT-4o，為什麽要免費開放？

2024-05-15科技

「對於全球所有國家而言，人工智能可能將沖擊40%的工作崗位。」

文 / 巴九靈

5月14日淩晨，OpenAI2024年春季釋出會上線。

這場釋出會，表面看有點簡陋（全程只有26分鐘，現場只有幾十名觀眾），卻是科技圈公認的魔法時刻。因為OpenAI上線了一款可以跟人「談戀愛」的大模型——GPT-4o。

GPT-4o是GPT-4的升級版，後面的o代表「omni」（全知全能）。GPT-4o能同時輸入和輸出文本、音訊和影像資訊，反應速度最短達到了232毫秒，完全可做到與人類在正常對話中同頻。

騰訊新聞評價，GPT-4o的釋出，使得ChatGPT進入即時互動紀元。

圖片來源：機器之心

最近，專業人士曾對所有的大模型做了評分測試，結果發現，GPT-4o的得分高達1310，效能遠超GPT-4 Turbo、GPT-4、Gemini等模型，重新整理業界水平。怪不得OpenAI創始人、CEO山姆·柯曼說：「（GPT）對我來說就像魔法一樣」。

在釋出會上，為了展現GPT-4o的魅力，OpenAI的三位高管米拉·穆拉蒂（Mira Murati）、陳馬克（Marc Chen）和巴雷特·瑣法（Barret Zoph）在台上做起了演示，向觀眾展示了五大套用場景。

在第一個場景裏，陳先生表示自己上台很緊張，然後假裝喘粗氣。GPT捕捉到了這個細節，就用幽默的語氣安慰陳先生，「別緊張，你不是吸塵器」。然後GPT細心地指導陳先生如何做深呼吸。

圖片來源：機器之心

在第二個場景裏，陳先生要求GPT給巴雷特講一個睡前故事。當GPT講得正起勁的時候，Marc一次又一次地打岔，要求GPT一遍又一遍地重講，還希望它以唱歌的語調結束故事。GPT沒有抱怨也沒有遲疑，而是很絲滑地完成了任務。

在第三個場景裏，巴雷特希望GPT輔導自己做數學題，但不能直接說答案，而是要一步一步給出解題思路。這個任務對GPT-4o就是小菜一碟，於是巴雷特加大了任務難度，把一串原始碼展現給GPT-4o看，然後要求GPT-4o用一句話描述這段程式碼的含義。沒有一秒鐘遲疑，GPT-4o就給出了巴雷特想要的答案。

最後一個場景是，米拉說意大利語，陳先生說英語，讓GPT-4o做轉譯。然後GPT-4o就做起了同聲傳譯，效果非常好。

看完場景演示後，很多網友們都驚出一身冷汗。尤其是做心理醫生、語文老師、數學老師、程式設計師和轉譯員的朋友，沒想到這麽快AI殺到自家工位了。

5月14日，國際貨幣基金組織總裁表示，未來兩年，對於發達經濟體而言，人工智能可能會影響60%的工作崗位；而對於全球所有國家而言，人工智能可能將沖擊40%的工作崗位。

當然也有樂觀者表示，就算舊職業消失了，也會有新職業出現，沒什麽可擔心的。他們關心的是ChatGPT的使用方法和價格變化。之前有人因為付費問題，放棄了ChatGPT。

所以當OpenAI技術總監米拉·穆拉蒂宣布「GPT-4o向所有人免費開放」開放時，現場響起了雷鳴的掌聲。

OpenAI越風光，谷歌、微軟等友商的壓力就越大。就在OpenAI釋出GPT-4o的24個小時後，谷歌召開了「I/O大會」，釋出了類似GPT-4o的個人數碼助理Pixie。本月21日，微軟也將召開「Build開發者大會」，市場猜測其大概率會將OpenAI最新能力整合到自家產品線中。

而大洋彼岸的中國人，也時刻關註以OpenAI為代表的美國AI產業的發展進度。大家都想知道，國產大模型與GPT-4o的差距有多大。為此，我們咨詢了幾位技術專家和產業觀察者，一起來聽聽他們的看法吧

胡延平

FutureLabs未來實驗室首席專家

我認為這次OpenAl釋出會，準確來講是一次偽裝成春季update的智能互動變革，貌似一小步的一大步，可以說OpenAl將再次制造一波焦慮。

從這次釋出會裏，我覺得可以總結出6個訊號。

1.大模型從此呆瓜變"真人」。

之前的模型，只能讀文看圖和遲滯感明顯的語音互動，如今GPT-4o可以實作即時多模態的自然互動。

這意味著即時能看懂、能插嘴說、能思考響應，還能有各種小情緒自然互動的能力，讓智能真正成為智能。也意味著，套用場景、使用者基數等會被幾何級放大。

2.GPT-4o的多模態自然互動能力，是GPT-5能力的選擇性釋放。

GPT-4o的能力，不只是包含了GPT4的後端能力+前端Chatbot聊天機器人，還有GPT-5的部份能力，說明OpenAI在控制節奏，不會也不願意一次性把GPT-5全都放出來。

3.巨大的沖擊。

一批基於GPT做語音等多模態自然互動的企業，一批基於家庭做情感陪伴的企業，一批基於機器人做具身智能互動界面的企業，他們的智能硬件底層邏輯都需要進一步重構，手機廠商中做自研模型的，也要更努力了。

助手、教育、轉譯等崗位更危險了……套殼GPT或OTT的商業模式，都會被GPT-4o反手封阻。

4.與其他模型拉開差距。

蘋果的Siri呆若木雞，Anthropic的Claude相形失色，谷歌的Gemini，能力有限……

客觀而言，其它的或閉源或開源大模型，沒有如此能打的。而且有了GPT-4o，估計付費使用者裏沒幾個人再願用GPT-4。

5.GPT-4o免費使用，是典型的行銷漏鬥策略。

GPT-4o目前是免費可限次數使用，付費可無限使用，和之前開放免費的GPT3.5類似，是典型的行銷漏鬥策略。

不過在付費層次上還沒充分拉開梯度，估計需求量較大的非開發者和非企業使用者，在使用GPT-4o時會更頻繁地遭遇更嚴重的受限情況。

6.流動終端的生產力爆發力，將不輸AI PC等生產力場景。

要重新理解網絡攝影機、機器視覺和聽覺了。未來手機等流動終端和碎片場景下的套用生產爆發力，將不輸AI PC等生產力場景，甚至流動終端會率先引爆，走在最前面，這意味著，未來涉及到的改變不只是幾億使用者，而是幾十億使用者。

目前GPT的競品，在一些基準測試成績如何接近GPT4，會是競爭維度之一，假設OpenAl手裏還藏著未打出來的牌，那麽接下來競爭的維度可能會有好幾個，競爭對手短時間不會那麽容易追趕上。

張孝榮

深度科技研究院院長

OpenAI釋出的GPT-4o模型在過去的基礎上，又往前邁了一大步。

簡單來說，在技術層面，他們提升了機器的理解能力，反應速度和互動水平，提升了系統安全性和性價比

技術突破主要體現在5個方面：

1.多模態理解與生成：GPT-4o能夠處理文本、音訊和影像的任意組合輸入，並生成相應的輸出，且視覺能力得到了提升，能夠快速回答有關圖片或桌面螢幕的問題，這在影像辨識和理解方面是一大突破。

2.即時推理響應：GPT-4o在音訊輸入的平均響應時間為320毫秒，最短響應時間為232毫秒，與人類的響應時間相似。

3.語音互動能力：GPT-4o能進行自然的對話，並且能模擬不同的情感表達，如興奮、友好甚至諷刺，使得語音互動更加自然和人性化。同時，GPT-4o支持多達50種語言，並顯著提高了非英語語言的效能，這意味著模型具有更廣泛的套用範圍。

4.增強安全性：GPT-4o在設計中內建了跨模式的安全性，並建立了新的安全系統，為語音輸出提供護欄，這表明模型安全性更高了。

5.效能提升與成本降低：與GPT-4 Turbo相比，GPT-4o的速度提高了2倍，價格降低了一半，速率限制提高了5倍，這在提效降本方面是重大進步。

目前GPT-4o在文本、推理、編碼等方面實作了與GPT-4 Turbo相當的效能，同時在多語言、音訊和視覺功能方面創下了新高，但還有待進一步測評，才能判斷是否是業界效能最強的模型。

現在GPT-4o對所有使用者免費開放，具有兩重意義。

◎ 第一重是行業意義。

這意味著更廣泛的使用者群體可以接觸到這一先進的AI技術，從而推動技術的普及和套用，而且可以激勵開發者和企業探索新的套用場景。

當然免費提供模型，也是OpenAI擴大市場份額和影響力的一種策略，可以獲取更多使用者，使用者的引入，會生產大量數據，從而擴大OpenAI自身數據訓練範圍，進一步提升模型精準度。

◎ 第二重是使用者意義。

普通人可以更方便地利用AI技術解決問題。在多語言支持、音訊和視覺理解方面的改進，使得普通人可以在更多場景下使用GPT-4o，比如語言學習、內容創作、編程輔助、教育輔導、日常任務處理和娛樂互動。

相比以往模型，GPT-4o新增了即時語音對話和影像辨識功能。使用者在使用這些功能的時候，體驗也會更好一些。

接下來，GPT-4o可能替代的崗位，主要在數據處理和語言互動方面，比如客服、轉譯、內容稽核和數據錄入等工作。

這次GPT-4o的釋出，意味著美國在AI發展方向上，又前進了一步，不過AI技術成熟度依然有待提升。

張津京

BT財經創始人

這次OpenAI釋出的GPT-4o，更多是進行商業化的探索，技術上並沒有太先進。

因為GPT-4o基本上就是一個對話大模型，本質是將文字對話變成語音，中間加上了一部份聯想，相當於把Sora對於自然語言的處理演算法結合進來了，但是這部份演算法結合的能力也不會太強，在使用過程中，GPT-4o的錯誤率也很高。

GPT-4o，底層演算法還是GPT-4，而且是能力上降了級的GPT-4，但超過了GPT-3.5，相當於OpenAI把GPT-4做成了不同層級的套用。

之所以這樣分層，是因為OpenAI在針對不付費、也不註冊的客戶，以此在免費人群裏拓展，成本會受限。

而OpenAI的更深層次目的，是想不斷地探索GPT商業化的前景。

目前OpenAI的商業邏輯越來越清晰了。不僅開放了GPT-4不註冊也可使用的限制，而且把GPT-4的能力降級，變得更加偏功能化，這樣就能在不同的套用上打造不同的模型，並形成不同的細分收費賽道，從而建立起整個商業模式。

不過OpenAI的規劃雖然有一定的操作性，但能不能把GPT作為真正的必需品讓大家付費，能不能持久下去，而不是使用者因為覺得有意思，付一段時間後又不付了，一切都還未定。

目前來看，這種對話式大模型到底有多強的生命力，也無法確定。

OpenAI依然還是在互聯網思維下做大模型產品，而我們的大模型是在不斷的接近生產生活的一線，讓更多的一些超乎想象的東西誕生出來。

這也是大模型現在的兩個方向。

本篇作者 | 饒祖分 | 梅浩宇 | 責任編輯 | 何夢飛

主編 | 何夢飛 | 圖源 | VCG