OpenAI GPT-4o深夜炸場!
當地時間5月13日10點(台北時間5月13日22:00),OpenAI技術長Mira Murati舉行召開了OpenAI春季釋出會,正式推出了新一代旗艦AI模型:GPT-4o。
話不多說,直接看GPT-4o的最新進展: 能即時進行多模態對話。
單看這這個描述,似乎沒什麽震撼力。如果用更形象的語言來概括,就是你可以在GPT上玩轉文字、圖片、影片和語音,並且隨時喚起、隨時打斷。
這意味著,GPT-4o的響應速度和表達能力達到了人類水平, 能夠像一個「真正的人」和你對話 。
Sam Altman在X平台略帶神秘地發了一個:「her」,暗指GPT-4o的擬人能力。
(註:經典電影【Her】中,男主角愛上了一個像人類一樣「有血有肉」的AI。)
Murati表示,相比GPT-4 Turbo, GPT-4o的速度要快2倍,不僅開放API,而且速率限制(即使用者可發出的請求數量)提至此前的5倍。
最令人振奮的是: 免費開放。
Murati表示, GPT-4o將面向ChatGPT的所有付費和免費使用者釋出 ,取消其他所有限制,API價格降價50%。
釋出會時長不長,除了主要介紹了GPT-4o之外,Murati還公布了桌面版ChatGPT以及新的使用者介面(UI)。
據悉,GPT-4o即日起將開始向API和使用者推出,語音和影片理解能力等更多功能將在後續叠代部署。
解方程式、做口譯、讀程式碼、懂情感……
GPT-4o中的「o」代表「omni」,意為全能 。
Murati稱,GPT-4o為每個使用者都提供了GPT-4級別的智能,同時還改進了GPT-4在 文本、視覺以及音訊方面 的能力。
借助GPT-4o,OpenAI透過跨文本、視覺和音訊端到端訓練了新模型,使得所有輸入和輸出都由同一神經網絡處理,進一步降低了延遲。
據介紹,GPT-4o的語音延遲大幅改善,可以在232毫秒內回應音訊輸入,平均為320毫秒,接近人類對話的反應時間。
在基本的功能介紹後,Murati邀請研究主管 Mark Chen、後訓練團隊負責人Barret Zoph同台進行功能演示。
比起前面的口頭介紹,GPT-4o的直播表現可謂充滿驚喜。
1)看圖指導解方程式
演示中,Zoph在白板上寫了一個方程式式3x+1=4,ChatGPT給他提示,引導他完成每一步解答,辨識他的書寫結果,幫助他解出了X的值。
2)解讀螢幕資訊
Zoph將一段Python程式碼輸入ChatGPT,並讓ChatGPT用一句話總結這段程式碼在做什麽。GPT回答無誤,並詳細說明了數據是如何被處理的。
隨後,Zoph又執行了這段程式碼,GPT能夠準確地描述出所生成圖表的具體含義,包括圖表主題、XY軸資訊、峰值水平。
3)即時交替轉譯
GPT還在演示中扮演了轉譯員的角色。應社交媒體X的使用者請求,Murati現場對ChatGPT說起了意大利語,GPT則將她的話轉譯成英語,轉告Zoph和Chen;聽完Murati說的意大利語,GPT再將其轉譯為英文並告訴Chen:「Mark,她(Murati)想知道鯨魚會不會說話,它們會告訴我們什麽?」
4)透過影片辨識面部情緒
演示中,Zoph將手機舉到自己面前正對著臉,要求ChatGPT檢測他現在的情緒。最初,GPT參考了他之前分享的一張照片,將他辨識為「木質表面」。經過第二次嘗試,GPT表示:「你看起來非常的開心,可能還有一點激動,看樣子你應該心情很不錯。」
Zoph贊揚了GPT的回答並表示自己正在進行一場演示,以展示「你有多不可思議」,此時GPT情緒頗為激動地表示:「快別說了!你讓我害羞了。」
在後續的網絡實測影片中,官方和使用者還探索出了GPT-4o的花樣玩法。
比如,將老照片中的手寫字轉錄為電子文本:
共享iPad螢幕後,讓GPT即時指導教學幾何題目:
和GPT影片玩 「石頭剪刀布」:
正如Murati說,GPT-4o的釋出意味著OpenAI在大模型的易用性方面邁出了一大步, Ta正在改變人機互動的協作模式。
AI手機還會遠嗎?
可以說,GPT-4o確實要比GPT-4 Turbo多了很多「小心思」,似乎正在挑戰Siri的地位。
不過,效能似乎要比Siri強的多。有網友調侃道:
「Siri現在的心情如下……」
實際上,就在此前, 有媒體報道透露 ,蘋果已經與OpenAI達成協定,將在全新作業系統iOS 18中引入ChatGPT技術,以升級Siri的對話體驗。
這不由令人猜想,GPT-4o和Siri將如何結合?OpenAI和蘋果會締造出具有跨時代意義的AI手機嗎?
輝達高級研究科學家Jim Fan在X平台表示,iOS整合GPT技術可能會有三個層級:
1)放棄Siri。OpenAI為iOS提煉出更小型、純器材上的GPT-4o,並可選擇付費升級以使用雲。
2)將相機或螢幕傳輸到模型中的基礎功能。對神經音訊/影片編解碼器的芯片級支持。
3)整合iOS系統操作API和智能家居API。Siri捷徑是時候復活了。
有分析指出,蘋果和OpenAI的合作能夠解決彼此在發展邊緣AI方面的痛點,真正做到各取所需——
OpenAI最需要什麽? 端側套用許可權、系統級許可權,只有蘋果能提供。
蘋果最需要什麽? 最好的AI技術,最適配的大語言模型,GPT-4o無疑是最佳人選。
Fan也表示,蘋果+OpenAI合作推出的AI產品可能會成為 從一開始就擁有10億使用者的AI產品。
目前,有分析師預測,蘋果將在6月10日的WWDC大會上官宣和OpenAI的合作夥伴關系,並推出基於蘋果LLM的AI聊天機器人。
令人激動的是, 已經有移動端App開始接入GPT-4o了。
用於輔助盲人和弱勢群體日常生活的手機App Be My Eyes嘗試了接入GPT-4o,發現日常決策的效率被大大提高。
宣傳影片顯示,一名盲人開啟Be My Eyes後,能夠透過和GPT-4o對話, 讓GPT詳細告訴他眼前的景象,從而快速做出決策。
網友紛紛評論: 太不可思議了!
有網友表示,這是GPT-4o的最佳用例,它將為視障人士創造一個全新的世界。
真「成精」了?【Her】來了
在所有演示結束後,Murati總結道:「正如大家所見,(如今的ChatGPT)真的很神奇。」
結合GPT-4o的表現及其情感感知/表達的能力,不少網友表示: 這不就是現實版的Her嗎!
還有網友據此做了一張梗圖「Him」,主角換成了Altman。
釋出會後,Altman在X平台釋出長文,稱「 看到一個令人興奮的未來 」。
「我感到非常自豪的是,我們在ChatGPT中免費提供了世界上最好的模型,沒有廣告。」
「最初的ChatGPT帶來了語言界面的可能性。這個新事物(GPT)給人的感覺有本質的不同。 它速度快、智能、有趣、自然,而且對人們更有幫助。 」
「對我來說,與電腦交談從來都不是很自然的事情。現在它做到了。隨著我們添加(可選)個人化、存取您的資訊、代表您采取行動的能力等等, 我真的可以看到一個令人興奮的未來,我們將用電腦做更多事。 」
AI創業顧問Allie K. Miller更是興奮地表示:
哇塞,這真是太棒了!這基本上就是一個24/7與你進行螢幕共享的同事,它完全不會疲倦。我可以想象人們使用這個工具連續工作數小時。
AI開發者Benjamin De Kraker甚至直接誇贊道: AGI(通用人工智能)基本已經實作。
「對於大多數人來說,這將被當做是魔法。當一個虛擬的「人」幾乎可以和普通人一樣聽、說、看和推理,你還能用什麽來形容呢?這不就是AGI嗎?」