OpenAI上新，記者實測GPT-4o：更快更強大，也更聰明的私人助手

2024-05-14科技

26:13

潮新聞客戶端記者朱高祥

當地時間5月13日22:00，OpenAI舉行了名為「春季更新」的線上釋出會，宣布推出GPT-4的升級款模型GPT-4o。

這場釋出會堪稱簡陋，前後持續不到半個小時，既沒有大屏PPT，明星高管Sam Altman也沒有出現，核心環節就是由技術長Mira Murati帶著兩位員工一起在現場展示新模型。

但這場釋出會依舊驚艷，正如GPT-4o中的「o」（omn，意為全能），GPT-4o長出了「眼睛」「嘴巴」，變得全知全能。不少網友驚呼，電影照進現實，未來套用充滿無限想象空間。

OpenAI「春季更新」釋出會。來源：OpenAI官方社交媒體

記者實測：更為強大的GPT

5月14日，GPT-4o釋出後，OpenAI的執行長Sam Altman在社交媒體上發帖，僅有一個字「her」。

圖片來源：Sam Altman社交媒體

【her】是一部科幻電影的名字，影片中人工智慧系統「薩曼莎」不僅能夠幫助男主狄奧多完美地處理好工作，而且還是朵「解語花」。她擁有性感的聲線，細膩的情感，並且風趣幽默，她能夠和狄奧多進行深度交流。「her」也是很多人看到GPT-4o演示之後的最大感受，它似乎變得跟真人一樣了。

5月14日，為了驗證GPT-4o的強大，潮新聞記者開啟ChatGPT的app進行了實測。記者發現，目前要使用GPT-4o，需要以每月20美元的價格開通「ChatGPT Plus」。

圖片來源：OpenAI官網

記者註意到，GPT-4o與GPT-3.5最明顯的不同在於界面，GPT-3.5僅支持文字與語音輸入，但GPT-4o可以輸入文字、語音、圖片以及檔等。

當記者詢問GPT-4o可以做什麽？它回答稱可以「回答問題」「語言轉譯」「寫作和編輯」「提供建議」「數學和編程」「數據分析」「建立影像」「即時資訊查詢」等。

對於「即時資訊查詢」，記者分別用「杭州今日天氣」向GPT-3.5、GPT-4與GPT-4o進行了詢問，只有GPT-4與GPT-4o可以回答。

記者用「杭州天氣」詢問三個大模型

記者拍攝了一張辦公桌照片讓GPT-4與GPT-4o進行描述，這兩個大模型都可以在幾秒鐘之內給出解讀。但對比來看，GPT-4o總結得更為詳細，也更為全面。

記者用照片測試GPT-4與GPT-4o

另外針對數據分析能力，記者利用在深交所下載的14頁的「萬科2024年第一季度報告」讓GPT-4與GPT-4o進行分析，兩者均能對財務狀況、業務進展等要素進行快速總結。但對比來看，GPT-4o能力更強，分析得也更為全面透徹。

記者用萬科2024年第一季度報告檢測GPT-4與GPT-4o

值得註意的是，與釋出會上的演示不同，目前ChatGPT僅接入GPT-4o有限功能，尚不可以利用網路攝影機對現實場景分析，也不能在與其語音溝通時即時打斷。

不過，OpenAI已經宣布推出一款適用於macOS的桌面級套用，使用鍵盤快捷鍵就可向ChatGPT提問。使用者可透過電腦與ChatGPT語音對話，GPT-4o的新音訊和視訊功能後續將推出。值得註意的是，此次OpenAI並未釋出關於新模型的論文或技術文件。

長出「眼睛」和「嘴巴」的GPT，帶來什麽想象？

在釋出會上，OpenAI現場展示了和ChatGPT的若幹互動，包括：即時對話互動、語音多樣化（應使用者需求使用不同情緒、語調等）、視訊指導做題、視訊辨識環境和人（包括人的情緒）、以桌面套用形式輔助編程、即時轉譯等。

釋出會上，利用GPT-4o進行視訊指導做題。圖片來源：釋出會視訊截圖

OpenAI同時還放出了預先錄制的展示樣例若幹，包括：兩個GPT-4o交流和對唱、唱搖籃曲、線上會議套用、毒舌諷刺、視訊識物並給出西班牙語單詞、幫助面試準備、和狗互動等。

演示視訊中與狗互動。圖片來源：OpenAI官網

在所有的演示當中，最讓人驚訝的還是視訊對話：使用者開啟網路攝影機，讓ChatGPT「看」到當下，並進行互動。

用前置鏡頭自拍，ChatGPT可以辨識使用者的情緒，如「看起來很開心，甚至可以說是興奮的」，還能從使用者背後的畫面判斷其身處的環境，如「看起來你在一個攝影棚中，背後有一些燈光，你的胸前還別著麥克風，可能在錄制視訊之類的」。當有另一個人進入鏡頭並且做鬼臉的時候，ChatGPT也準確指出了這一「不太尋常」的情況，並加以描述。