當前位置: 華文世界 > 科技

OpenAI深夜放大招:GPT-4o正式釋出!柯曼:媲美人類的表現力

2024-05-14科技
為什麽叫做GPT-4o?這裏的「o」代表了英文單詞:Omni,代表了全能。不得不說,生成式AI又朝著AGI邁出了一大步,正如OpenAI行政總裁Sam Altman所說:這是一個魔法一樣的新功能。
關鍵是:GPT-4o的能力向免費使用者開放(但會限制數量,免費使用者達到數量之後,會自動跳回GPT-3.5)。
台北時間5月14日淩晨,OpenAI召開了一個不到30分鐘的釋出會,正式釋出了新的AI模型:GPT-4o,除了可以給普通使用者使用之外,還將開放相應API給GPT的開發者,比原來的GPT 4-Turbo 快 2 倍,價格便宜 50%。
已經支持50種語言。
首先,釋出會展示了GPT-4o在即時語音對話上的表現。這次使用者能夠隨時打斷GPT-4o,隨時插話,並獲得AI模型的即時響應,不必在尷尬的等待2-3秒。
在對話過程中,GPT-4o可以捕捉到使用者語音中蘊含的情緒,並根據這些情緒調整GPT-4o的AI語音風格,使之實作更加情緒化、戲劇化的表達,這個新升級,讓GPT-4o更像是一個交流自然且具備共情能力的AI聊天機器人。
結合數據:GPT-4o 可以在 232 毫秒內回應使用者的音訊輸入,這個速度已經非常接近人類交流時的反應時間。
接下來在多模態輸入方面,GPT-4o提升了視覺資訊的即時處理能力。
使用者透過手機網絡攝影機、即時共享螢幕等方式,就可以讓GPT-4o掃描各種視覺資訊,包括文本、圖表、外部資訊等等,與GPT-4o進行影片互動。
簡單說,這就像是使用者在給GPT-4o打「影片通話」,並在它的幫助下解決各類問題,比如說即時幫孩子輔導作業、掃描檔等等。GPT-4o可以透過網絡攝影機捕捉使用者表情,借此判斷他此時的情緒,給出相應建議。
請註意,這裏是指語音和影片的同時互動,所以說:GPT-4o對多模態互動的支持能力變得更強,使之更貼近一個全能型的個人智能助手。
在未來幾周內,GPT-4o會逐步向所有人開放,與此同時,OpenAI還釋出了ChatGPT的桌面版(首先是MacOS,Windows平台要在今年晚些時候釋出)。
釋出會後,OpenAI行政總裁Sam Altman表示:「新的語音(和影片)模式是我用過的最好的電腦界面。感覺(GPT-4o)就像電影中的人工智能;對我來說,它是真實的有點讓人驚訝。(GPT-4o)可以達到媲美人類的響應時間和表現力被證明是一個很大的變化。 」
沒錯,新的GPT-4o朝著更自然的人機互動又邁出了一大步。
當然,此時最開心應該還是微軟。