當前位置: 華文世界 > 科技

ChatGPT這麽會聊天,還要朋友幹什麽

2024-05-14科技

最近一周,科技行業熱鬧非凡,大型「臉對臉」開打的「科技春晚」,更將輪番上演。

5月14日淩晨,OpenAI 2024年春季釋出會上線。如今這家巨頭的每次動向,都存在再度「顛覆」一個行業的可能,既讓AI創業者們翹首以盼,更讓大家緊張萬分。

雖然這場OpenAI的釋出會僅持續了28分鐘,業內也早有劇透——不會有傳說中的ChatGPT 5,也不會直接對標谷歌做AI搜尋;但釋出會的效果,仍然震驚四座。

此次OpenAI推出的是一款桌面版ChatGPT,該模型被稱為GPT-4o。其中「o」代表著「omni」(全能)。在演示中,這一「全模態」模型不僅能接受文本、音訊、影像的任意組合輸出,並可跨領域進行推理與展示——最重要的是,其反應速度最短達到了232毫秒,完全可做到與人類在正常對話中同頻。

演示中,GPT-4o像個真實的人類一樣,可以被打斷,也可做到語態聯想。當它被裝入手機時,能透過喘氣聽懂使用者的嘆息、疲憊,使用體驗易用自然、功能強大。

OpenAI同步宣布了「獲客」大殺器:GPT-4o可以被安裝至桌面和手機端,並向所有人免費開放,API定價只有GPT-4 Turbo的一半,速度達到GPT-4 Turbo的2倍,付費的ChatGPT Plus使用者將獲得5倍呼叫額度。

壓力被急劇轉移到谷歌、蘋果等巨頭身上。台北時間5月15日淩晨,谷歌也將上線「I/O大會」,據傳谷歌將在會上公布大模型最新進展,並將釋出類似GPT-4o,在Gemini加持下的、名為「Pixie」的個人數碼助理。

本月21日,微軟也將召開「Build開發者大會」,市場猜測其大概率會將OpenAI最新能力整合到自家產品線中。

另據外媒報道,蘋果在此次釋出會前,已與OpenAI達成合作。在6月的蘋果「WWDC大會」上,ChatGPT會不會被塞入iPhone之中,以取代「招人恨」的Siri,也非常值得期待。

01、28分鐘,幹翻所有語音助手

一場大範圍預熱,將OpenAI釋出會的懸念提前拉滿。

釋出會前,OpenAI創始人、CEO山姆·柯曼先早早否定了對標谷歌,上線AI搜尋的傳聞。他稱,「(新功能)對我來說就像魔法一樣」。OpenAI語音AGI研究領導Alexis Conneau更直接將自己的社交媒體主頁背景,改成了一張電影【Her】中的劇照——這是一部朗讀程式與AI助手「薩曼莎」相戀的科幻電影。

外界甚至為柯曼編排出了一個與AI助手相愛的浪漫故事。釋出會結束後,山姆也順水推舟地,在自己的X賬號上,只發表了一個單詞——「Her」。

▲(圖源/網絡)

不過當看過OpenAI的最新產品後,觀眾們驚呼,【Her】中的劇情真的進入了現實。

釋出會上展示的GPT-4o,仿佛是一個真實的「朋友」坐在身邊。它反應迅速,語調流暢自然,情緒飽滿,會跟隨著你的情緒興奮起來,也能根據上下文給出豐富的對話細節,揣摩對話者的情緒。

例如,當OpenAI的研發負責人Mark Chen上台時,他對著GPT-4o說:「我站在台上有點緊張,該怎麽辦?」GPT-4o回答:「你太棒了,深呼吸一下吧,記得你可是個專家。」Mark Chen隨之大聲喘氣,問GPT-4o接下來還能給些什麽建議,對方回答:「放松點Mark,呼吸得慢一點,你又不是吸塵器。」

▲(圖源/OpenAI)

接下來,GPT-4o被要求給大家講個睡前故事。沒講幾秒,它就被Chen打斷,要求能不能多點情緒和戲劇性。隨即,GPT-4o語調更加起伏和誇張。Chen又對其要求:能不能再來點情感,最戲劇化的表達可以嗎?GPT-4o顯然讀懂了「戲劇化」的含義,隨即拿出了戲劇演員一樣誇張的語調——有趣的是,當GPT-4o又被要求唱歌時,它甚至自己先嘆了口氣。

在此過程中,GPT-4o的反應速度也令人深刻。據計算,它對音訊輸入的響應時間最短為232毫秒,平均為320毫秒,這與人類在對話中的響應時間相似。

語音聊天外,GPT-4o還表現出了多模態理解和輸出能力。它能夠跨聲音、文本和視覺進行智能推理,可以就使用者給出的截圖、照片,或含有文本和影像的檔展開對話。

此外,GPT-4o也能生成任何文本、音訊和影像的組合。並能在輸出中,辨識人類的感情,根據感情做出「有情緒的反應」。

為了快速「獲客」,這樣強大的助手,OpenAI準備交給使用者免費使用,並可在電腦桌面執行。據官方介紹,OpenAI最佳化了使用者介面,使用者只需要關註如何與ChatGPT協作。可想而知,這樣一位免費的AI助手,可以隨時陪你聊天、看圖表、寫日程,它將爆發怎樣的巨量使用場景。

02、打到谷歌、蘋果家門口

盡管OpenAI此次沒有亮出GPT-5這樣的大招,從業界反饋看,其展現出的技術能力升級足以令人再度感到震驚。

據騰訊科技報道,根據OpenAI官網最新網誌文章顯示,在GPT-4o上線之前,使用語音模式與ChatGPT對話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為實作這一點,ChatGPT語音模式是由三個獨立的模型組成的流水線:一個簡單的模型將音訊轉錄為文本,GPT-3.5或GPT-4接收文本並輸出文本,第三個簡單的模型將該文本再轉換回音訊。

在這個過程中,GPT-4會遺失很多資訊,它不能直接觀察語調、多個說話者或背景噪音,也不能輸出笑聲、歌唱或表達情感。

而GPT-4o之所以能表現出更自然、更貼近人類的情感,源於其是單獨訓練的新模型。因此,可以端到端地處理文本、視覺和音訊,這意味著所有輸入和輸出都由同一個神經網絡處理。

▲(圖源/OpenAI)

這款被OpenAI能力強大最佳化了的桌面App與手機端助手,其所開啟的想象力,也威脅到了一眾巨頭的蛋糕。例如,許多人最直接的反應是:它已經達到了全面「吊打」Siri的 水平。

有趣的是:據外媒報道,釋出會前一天,蘋果與OpenAI的合作已秘密達成。雖然合作方式尚不可知,但不少人猜測:OpenAI的技術將會在蘋果新品中整合亮相。

另外多模態人工智能助手的賽道裏,最大的玩家本來還站著谷歌。

2023年12月,谷歌釋出了Gemini模型1.0版本,開始便定義其為「原生多模態大模型」,希望打通語言、聽力、視覺資訊的輸入輸出能力。2024年2月,Gemini上新了1.5版本。

5月15日,OpenAI釋出會一天後,谷歌「I/O大會」即將舉辦,Gemini的更新釋出本是關註重點。但OpenAI爆冷釋出語音助手,無疑會將關註度從Gemini身上奪走不少。

不過這種在釋出會前被搶風頭的「糟心事」,谷歌已經不是第一次經歷。2023年12月,谷歌原定上線Gemini時,OpenAI便在11月搶先舉辦了首屆開發者大會。為此,Gemini的上線時間一度被傳,要被延後到2024年初。

這一次,面對OpenAI「騎臉」開打,谷歌也不甘示弱地做出了反擊,很快在官方賬號裏放出了語音助手的demo即時演示。

▲谷歌I/O大會語音助手Demo 圖源:網絡

谷歌旗下人工智能研究機構DeepMind的CEO和聯合創始人Demis Hassabis、谷歌AI工作室產品負責人及Gemini API研究人員Logan Kilpatrick紛紛下場表示,自己將在本屆I/O大會上「首秀」。

兩大巨頭在即時語音助手戰場正面交鋒,讓看客直呼精彩。但也有人給谷歌先潑了涼水,評價道:「Sorry Google but we got it one day earlier(對不起谷歌,但我們一天前已經得到這個了)。」

03、競爭對手們怎麽辦?

十年前,「科技春晚」還是蘋果釋出會的代名詞。十年之後,主角已然輪換。

不得不承認,「百模大戰」國內外已膠著對戰了一年多,但每每在市場中扛起「議程設定」標桿角色的,仍非OpenAI莫屬。接下來,圍繞GPT-4o多模態功能更新的互動體驗,也勢必將掀起市場中的新一輪攻防大戰。

此前,市場在曝光了OpenAI可能釋出AI搜尋產品、硬剛谷歌之時,已有各路大V下場,激辯「AI搜尋」的未來。GPT-4o的最新體驗,也為還在苦苦追趕的國內AI創業市場,平添了許多緊張氣氛。

不過,從業界的綜合觀察來看,國內創企亦不必覺得節奏被OpenAI追逐得難以喘息。比如,OpenAI沒有選擇上線GPT-5,本身亦是大模型訓練「卷」至高階,也逐漸進入到瓶頸期的反映。

作為目前在研的OpenAI最新一代大模型,GPT-5被視為有望對現有模型形成碾壓級超越的產品。其效能、售價等因素,也將直接影響市場的發力方向。

而從2022年11月到2023年3月,OpenAI很快完成了從ChatGPT(基於GPT-3.5)到GPT-4的跨越,但GPT-5的釋出目前還沒有具體時間表。

有關GPT-5的亮相時間,市場已經存在多個版本。此前,OpenAI官網曾預計GPT-5將在2023年第四季度推出,隨後釋出時間推遲。如今市場傳聞稱,GPT-5有望於年中、今夏釋出;亦有媒體援引內部人士訊息稱,GPT-5或將於2024年11月份亮相。

而就在剛剛過去的4月,還有許多人在網上曬出了OpenAI發出的「紅隊測試邀請」郵件截圖。在AI行業,「紅藍對抗測試」是保證大模型安全性的重要方式,測試人員透過不斷地挑戰模型,以便提前對漏洞「查漏補缺」。因此,市場猜測雖然OpenAI未標明模型版本,但GPT-5或許已經接近釋出。

也有業內人士猜測,GPT-5的「姍姍來遲」,或因OpenAI研發遇到某種天花板。與此同時,OpenAI在今年2月16日釋出的重磅文生影片模型Sora,雖然看起來技驚四座,但OpenAI至今仍未開放使用Sora,更遑論商業落地。

▲(Sora生成的MV畫面。圖源/網絡)

在專業人士看來,Sora越快開放使用,就能提早完善問題、重塑商業流程。

音影片協作軟件「分秒幀」創始人程剛對「市界」講道:「我們目前看到Sora存在幻覺問題、精準度問題、對物理世界的理解,以及模擬不準確所帶來的邏輯問題、版權溯源和版權保護問題,以及有人濫用工具去生成虛假內容的問題等等。這些問題當然會影響Sora在商業場景中的使用。」

但他判斷:「Sora叠代的速度,基本可以參照ChatGPT的叠代速度。Sora對現實模擬不準確的問題,比如手有六指,(如果放開使用)應該半年左右就能得到比較大的最佳化。」

作者 | 董溫淑

編輯 | 李 原

營運 | 劉 珊