OpenAI深夜放大招：GPT-4o正式釋出！柯曼：媲美人類的表現力

2024-05-14科技

為什麽叫做GPT-4o？這裏的「o」代表了英文單詞：Omni，代表了全能。不得不說，生成式AI又朝著AGI邁出了一大步，正如OpenAI行政總裁Sam Altman所說：這是一個魔法一樣的新功能。

關鍵是：GPT-4o的能力向免費使用者開放（但會限制數量，免費使用者達到數量之後，會自動跳回GPT-3.5）。

台北時間5月14日淩晨，OpenAI召開了一個不到30分鐘的釋出會，正式釋出了新的AI模型：GPT-4o，除了可以給普通使用者使用之外，還將開放相應API給GPT的開發者，比原來的GPT 4-Turbo 快 2 倍，價格便宜 50%。

已經支持50種語言。

首先，釋出會展示了GPT-4o在即時語音對話上的表現。這次使用者能夠隨時打斷GPT-4o，隨時插話，並獲得AI模型的即時響應，不必在尷尬的等待2-3秒。

在對話過程中，GPT-4o可以捕捉到使用者語音中蘊含的情緒，並根據這些情緒調整GPT-4o的AI語音風格，使之實作更加情緒化、戲劇化的表達，這個新升級，讓GPT-4o更像是一個交流自然且具備共情能力的AI聊天機器人。

結合數據：GPT-4o 可以在 232 毫秒內回應使用者的音訊輸入，這個速度已經非常接近人類交流時的反應時間。

接下來在多模態輸入方面，GPT-4o提升了視覺資訊的即時處理能力。

使用者透過手機網絡攝影機、即時共享螢幕等方式，就可以讓GPT-4o掃描各種視覺資訊，包括文本、圖表、外部資訊等等，與GPT-4o進行影片互動。

簡單說，這就像是使用者在給GPT-4o打「影片通話」，並在它的幫助下解決各類問題，比如說即時幫孩子輔導作業、掃描檔等等。GPT-4o可以透過網絡攝影機捕捉使用者表情，借此判斷他此時的情緒，給出相應建議。

請註意，這裏是指語音和影片的同時互動，所以說：GPT-4o對多模態互動的支持能力變得更強，使之更貼近一個全能型的個人智能助手。

在未來幾周內，GPT-4o會逐步向所有人開放，與此同時，OpenAI還釋出了ChatGPT的桌面版（首先是MacOS，Windows平台要在今年晚些時候釋出）。

釋出會後，OpenAI行政總裁Sam Altman表示：「新的語音（和影片）模式是我用過的最好的電腦界面。感覺（GPT-4o）就像電影中的人工智能；對我來說，它是真實的有點讓人驚訝。（GPT-4o）可以達到媲美人類的響應時間和表現力被證明是一個很大的變化。」

沒錯，新的GPT-4o朝著更自然的人機互動又邁出了一大步。

當然，此時最開心應該還是微軟。