當前位置: 華文世界 > 科技

遙遙領先的GPT-4o,為什麽要免費開放?

2024-05-15科技

「對於全球所有國家而言,人工智能可能將沖擊40%的工作崗位。」

文 / 巴九靈

5月14日淩晨,OpenAI2024年春季釋出會上線。

這場釋出會,表面看有點簡陋(全程只有26分鐘,現場只有幾十名觀眾),卻是科技圈公認的魔法時刻。因為OpenAI上線了一款可以跟人「談戀愛」的大模型——GPT-4o。

GPT-4o是GPT-4的升級版,後面的o代表「omni」(全知全能)。GPT-4o能同時輸入和輸出文本、音訊和影像資訊,反應速度最短達到了232毫秒,完全可做到與人類在正常對話中同頻。

騰訊新聞評價,GPT-4o的釋出,使得ChatGPT進入即時互動紀元。

圖片來源:機器之心

最近,專業人士曾對所有的大模型做了評分測試,結果發現,GPT-4o的得分高達1310,效能遠超GPT-4 Turbo、GPT-4、Gemini等模型,重新整理業界水平。怪不得OpenAI創始人、CEO山姆·柯曼說:「(GPT)對我來說就像魔法一樣」。

在釋出會上,為了展現GPT-4o的魅力,OpenAI的三位高管米拉·穆拉蒂(Mira Murati)、陳馬克(Marc Chen)和巴雷特·瑣法(Barret Zoph)在台上做起了演示,向觀眾展示了五大套用場景。

在第一個場景裏,陳先生表示自己上台很緊張,然後假裝喘粗氣。GPT捕捉到了這個細節,就用幽默的語氣安慰陳先生,「別緊張,你不是吸塵器」。然後GPT細心地指導陳先生如何做深呼吸。

圖片來源:機器之心

在第二個場景裏,陳先生要求GPT給巴雷特講一個睡前故事。當GPT講得正起勁的時候,Marc一次又一次地打岔,要求GPT一遍又一遍地重講,還希望它以唱歌的語調結束故事。GPT沒有抱怨也沒有遲疑,而是很絲滑地完成了任務。

在第三個場景裏,巴雷特希望GPT輔導自己做數學題,但不能直接說答案,而是要一步一步給出解題思路。這個任務對GPT-4o就是小菜一碟,於是巴雷特加大了任務難度,把一串原始碼展現給GPT-4o看,然後要求GPT-4o用一句話描述這段程式碼的含義。沒有一秒鐘遲疑,GPT-4o就給出了巴雷特想要的答案。

最後一個場景是,米拉說意大利語,陳先生說英語,讓GPT-4o做轉譯。然後GPT-4o就做起了同聲傳譯,效果非常好。

看完場景演示後,很多網友們都驚出一身冷汗。尤其是做心理醫生、語文老師、數學老師、程式設計師和轉譯員的朋友,沒想到這麽快AI殺到自家工位了。

5月14日,國際貨幣基金組織總裁表示,未來兩年,對於發達經濟體而言,人工智能可能會影響60%的工作崗位;而對於全球所有國家而言,人工智能可能將沖擊40%的工作崗位。

當然也有樂觀者表示,就算舊職業消失了,也會有新職業出現,沒什麽可擔心的。他們關心的是ChatGPT的使用方法和價格變化。之前有人因為付費問題,放棄了ChatGPT。

所以當OpenAI技術總監米拉·穆拉蒂宣布「GPT-4o向所有人免費開放」開放時,現場響起了雷鳴的掌聲。

OpenAI越風光,谷歌、微軟等友商的壓力就越大。就在OpenAI釋出GPT-4o的24個小時後,谷歌召開了「I/O大會」,釋出了類似GPT-4o的個人數碼助理Pixie。本月21日,微軟也將召開「Build開發者大會」,市場猜測其大概率會將OpenAI最新能力整合到自家產品線中。

而大洋彼岸的中國人,也時刻關註以OpenAI為代表的美國AI產業的發展進度。大家都想知道,國產大模型與GPT-4o的差距有多大。為此,我們咨詢了幾位技術專家和產業觀察者,一起來聽聽他們的看法吧

胡延平

FutureLabs未來實驗室首席專家

我認為這次OpenAl釋出會,準確來講是一次偽裝成春季update的智能互動變革,貌似一小步的一大步,可以說OpenAl將再次制造一波焦慮。

從這次釋出會裏,我覺得可以總結出6個訊號。

1.大模型從此呆瓜變"真人」。

之前的模型,只能讀文看圖和遲滯感明顯的語音互動,如今GPT-4o可以實作即時多模態的自然互動。

這意味著即時能看懂、能插嘴說、能思考響應,還能有各種小情緒自然互動的能力,讓智能真正成為智能。也意味著,套用場景、使用者基數等會被幾何級放大。

2.GPT-4o的多模態自然互動能力,是GPT-5能力的選擇性釋放。

GPT-4o的能力,不只是包含了GPT4的後端能力+前端Chatbot聊天機器人,還有GPT-5的部份能力,說明OpenAI在控制節奏,不會也不願意一次性把GPT-5全都放出來。

3.巨大的沖擊。

一批基於GPT做語音等多模態自然互動的企業,一批基於家庭做情感陪伴的企業,一批基於機器人做具身智能互動界面的企業,他們的智能硬件底層邏輯都需要進一步重構,手機廠商中做自研模型的,也要更努力了。

助手、教育、轉譯等崗位更危險了……套殼GPT或OTT的商業模式,都會被GPT-4o反手封阻。

4.與其他模型拉開差距。

蘋果的Siri呆若木雞,Anthropic的Claude相形失色,谷歌的Gemini,能力有限……

客觀而言,其它的或閉源或開源大模型,沒有如此能打的。而且有了GPT-4o,估計付費使用者裏沒幾個人再願用GPT-4。

5.GPT-4o免費使用,是典型的行銷漏鬥策略。

GPT-4o目前是免費可限次數使用,付費可無限使用,和之前開放免費的GPT3.5類似,是典型的行銷漏鬥策略。

不過在付費層次上還沒充分拉開梯度,估計需求量較大的非開發者和非企業使用者,在使用GPT-4o時會更頻繁地遭遇更嚴重的受限情況。

6.流動終端的生產力爆發力,將不輸AI PC等生產力場景。

要重新理解網絡攝影機、機器視覺和聽覺了。未來手機等流動終端和碎片場景下的套用生產爆發力,將不輸AI PC等生產力場景,甚至流動終端會率先引爆,走在最前面,這意味著,未來涉及到的改變不只是幾億使用者,而是幾十億使用者。

目前GPT的競品,在一些基準測試成績如何接近GPT4,會是競爭維度之一,假設OpenAl手裏還藏著未打出來的牌,那麽接下來競爭的維度可能會有好幾個,競爭對手短時間不會那麽容易追趕上。

張孝榮

深度科技研究院院長

OpenAI釋出的GPT-4o模型在過去的基礎上,又往前邁了一大步。

簡單來說,在技術層面,他們提升了機器的理解能力,反應速度和互動水平,提升了系統安全性和性價比

技術突破主要體現在5個方面:

1.多模態理解與生成:GPT-4o能夠處理文本、音訊和影像的任意組合輸入,並生成相應的輸出,且視覺能力得到了提升,能夠快速回答有關圖片或桌面螢幕的問題,這在影像辨識和理解方面是一大突破。

2.即時推理響應:GPT-4o在音訊輸入的平均響應時間為320毫秒,最短響應時間為232毫秒,與人類的響應時間相似。

3.語音互動能力:GPT-4o能進行自然的對話,並且能模擬不同的情感表達,如興奮、友好甚至諷刺,使得語音互動更加自然和人性化。同時,GPT-4o支持多達50種語言,並顯著提高了非英語語言的效能,這意味著模型具有更廣泛的套用範圍。

4.增強安全性:GPT-4o在設計中內建了跨模式的安全性,並建立了新的安全系統,為語音輸出提供護欄,這表明模型安全性更高了。

5.效能提升與成本降低:與GPT-4 Turbo相比,GPT-4o的速度提高了2倍,價格降低了一半,速率限制提高了5倍,這在提效降本方面是重大進步。

目前GPT-4o在文本、推理、編碼等方面實作了與GPT-4 Turbo相當的效能,同時在多語言、音訊和視覺功能方面創下了新高,但還有待進一步測評,才能判斷是否是業界效能最強的模型。

現在GPT-4o對所有使用者免費開放,具有兩重意義。

◎ 第一重是行業意義。

這意味著更廣泛的使用者群體可以接觸到這一先進的AI技術,從而推動技術的普及和套用,而且可以激勵開發者和企業探索新的套用場景。

當然免費提供模型,也是OpenAI擴大市場份額和影響力的一種策略,可以獲取更多使用者,使用者的引入,會生產大量數據,從而擴大OpenAI自身數據訓練範圍,進一步提升模型精準度。

◎ 第二重是使用者意義。

普通人可以更方便地利用AI技術解決問題。在多語言支持、音訊和視覺理解方面的改進,使得普通人可以在更多場景下使用GPT-4o,比如語言學習、內容創作、編程輔助、教育輔導、日常任務處理和娛樂互動。

相比以往模型,GPT-4o新增了即時語音對話和影像辨識功能。使用者在使用這些功能的時候,體驗也會更好一些。

接下來,GPT-4o可能替代的崗位,主要在數據處理和語言互動方面,比如客服、轉譯、內容稽核和數據錄入等工作。

這次GPT-4o的釋出,意味著美國在AI發展方向上,又前進了一步,不過AI技術成熟度依然有待提升。

張津京

BT財經創始人

這次OpenAI釋出的GPT-4o,更多是進行商業化的探索,技術上並沒有太先進。

因為GPT-4o基本上就是一個對話大模型,本質是將文字對話變成語音,中間加上了一部份聯想,相當於把Sora對於自然語言的處理演算法結合進來了,但是這部份演算法結合的能力也不會太強,在使用過程中,GPT-4o的錯誤率也很高。

GPT-4o,底層演算法還是GPT-4,而且是能力上降了級的GPT-4,但超過了GPT-3.5,相當於OpenAI把GPT-4做成了不同層級的套用。

之所以這樣分層,是因為OpenAI在針對不付費、也不註冊的客戶,以此在免費人群裏拓展,成本會受限。

而OpenAI的更深層次目的,是想不斷地探索GPT商業化的前景。

目前OpenAI的商業邏輯越來越清晰了。不僅開放了GPT-4不註冊也可使用的限制,而且把GPT-4的能力降級,變得更加偏功能化,這樣就能在不同的套用上打造不同的模型,並形成不同的細分收費賽道,從而建立起整個商業模式。

不過OpenAI的規劃雖然有一定的操作性,但能不能把GPT作為真正的必需品讓大家付費,能不能持久下去,而不是使用者因為覺得有意思,付一段時間後又不付了,一切都還未定。

目前來看,這種對話式大模型到底有多強的生命力,也無法確定。

OpenAI依然還是在互聯網思維下做大模型產品,而我們的大模型是在不斷的接近生產生活的一線,讓更多的一些超乎想象的東西誕生出來。

這也是大模型現在的兩個方向。

本篇作者 | 饒祖分 | 梅浩宇 | 責任編輯 | 何夢飛

主編 | 何夢飛 | 圖源 | VCG