當前位置: 華文世界 > 科技

記者實測|速度更快成本更低,人機互動更自然,OpenAI新模型免費開放

2024-05-14科技
當地時間5月13日,OpenAI透過直播展示了產品更新。與此前傳出的市場訊息不同,OpenAI並未推出搜尋引擎,也未推出GPT-4.5或GPT-5,而是釋出了GPT-4系列新模型GPT-4o以及AI聊天機器人ChatGPT的桌面版本,聚焦多模態和端側套用。
此前OpenAI公司CEO奧爾特曼(Sam Altman)就已經否認了公司將會釋出GPT-5,他表示新版GPT非常「神奇」。根據OpenAI官方網站介紹,GPT-4o中的「o」代表Omni,也就是「全能」的意思。
據介紹,GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,影片、音訊功能得到改善。OpenAI CEO奧爾特曼(Sam Altman)在網誌中表示,ChatGPT免費使用者也能用上新釋出的GPT-4o。此外,OpenAI還與蘋果走到一起,推出了適用於macOS的桌面級套用。
OpenAI技術負責人Mira Murati在直播中表示:「這是我們第一次在易用性方面真正邁出的一大步。」
價格低於GPT-4 Turbo
OpenAI研究員Mark Chen表示,新模型具有「感知情緒」的能力,能輸出笑聲、歌唱或表達情感,還可以處理使用者打斷它的情況。
在直播中,OpenAI演示了一段OpenAI員工與GPT-4o對話的影片,模型反應速度與人類相近,GPT-4o可利用手機網絡攝影機描述其「看到」的東西。
另一段展示影片裏,GPT-4o被裝在兩個手機上,其中一個代表人類與電信公司打電話溝通器材更換事項,另一個GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機上的即時轉譯能力。
根據OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語音對談機制不同。GPT-3.5和GPT-4會先將音訊轉換為文本,再接收文本生成文本,最後將文本轉換為音訊,經歷這三個過程,音訊中的情感表達等資訊會被折損,而GPT-4o是跨文本、視覺和音訊的端到端模型,是OpenAI第一個綜合了這些維度的模型,可更好進行對談。
OpenAI將GPT-4o定位為GPT-4性能階別的模型。據介紹,GPT-4o在傳統基準測試中,文本、推理、編碼能力達到GPT-4 Turbo的水平。該模型接收文本、音訊和影像輸入時,平均320毫秒響應音訊輸入,與人類對話中的響應時間相似,英文文本和程式碼能力與GPT-4 Turbo相當,在非英文文本上有改善,提高了ChatGPT針對50種不同語言的質素和速度,並透過OpenAI的API提供給開發人員,使其即時就可以開始使用新模型構建應用程式。
第一財經記者在OpenAI官網看到,GPT-4o輸入、輸出每1M token(文本單位)收費0.005美元、0.015美元,GPT-4 Turbo輸入、輸出每1M token收費0.01美元、0.03美元。
「在過去兩年中,我們花了大量精力在堆疊的每一層上提高-效率,作為這項研究的第一個成果,我們能使GPT-4級別的模型更廣泛套用,GPT-4o即日起擴充套件紅隊存取許可權。」OpenAI官網稱,GPT-4o的文本和影像功能今日在ChatGPT中推出,「我們計劃在未來幾周內在API中向一小部份值得信賴的合作夥伴推出對GPT-4o新音訊和影片功能的支持。」
第一財經記者在ChatGPT網站看到,ChatGPT已接入GPT-4o有限存取許可權,但免費使用者還不能使用圖片生成功能。
記者使用了GPT-4o來描述圖片,發現其生成結果較準確,5秒左右就能生成描述圖片的文字。
此外,OpenAI還宣布推出一款適用於macOS的桌面級套用,使用鍵盤快捷鍵就可向ChatGPT提問。使用者可透過電腦與ChatGPT語音對話,GPT-4o的新音訊和影片功能後續將推出。OpenAI已向Plus使用者推出macOS應用程式,今年晚些時候還將推出Windows版本。
值得註意的是,近日還有訊息傳出蘋果與OpenAI商談,以便在下一代iPhone作業系統使用ChatGPT功能。此次OpenAI重點展示了大模型在手機端側套用的能力。
不過,此次OpenAI並未釋出關於新模型的論文或技術文件。
今日,OpenAI特別強調了新模型的風險和局限性。該公司稱:「GPT-4o的音訊模式帶來了各種新的風險。在接下來的幾周和幾個月裏,我們將更關註技術基礎設施、培訓後的可用性以及釋出其他模式所需的安全性。例如,在釋出時,音訊輸出將僅限於選擇預設的聲音,並將遵守我們現有的安全政策。」
發力端側套用
不少科技界人士發表了對OpenAI此次產品更新的看法。「我沒想到GPT-4o會接近GPT-5。傳聞中OpenAI的‘Arrakis’模型就采用多模態輸入和輸入。事實上,它可能是GPT-5的一個早期檢查點(checkpoint),尚未完成訓練。」輝達高級科學家Jim Fan在社交媒體上評論稱。
Jim Fan認為,在谷歌召開I/O大會前,OpenAI寧願釋出超過人們對GPT-4.5心理預期的產品,也不願因為推出達不到人們期望的GPT-5,而讓人感到失望。此外,誰先贏得蘋果,誰就將大獲全勝,與iOS整合有幾個層次,例如拋棄Siri,OpenAI為iOS提煉出一個更小層級、器材上執行的GPT-4o。雖然此次未公開相關論文,加利福尼亞大學聖克魯茲分校教授Xin Eric Wang還是評論認為,一個演示勝過千篇論文。
「比較讓人失望的是,這次OpenAI沒有釋出GPT-5,連GPT-4.5都沒看到。OpenAI釋出了一系列套用,最重要的是釋出了語音助手,由於使用了端到端大模型技術,體驗遠超Siri。OpenAI釋出套用,恰恰說明套用在人工智能領域大有可為。目前看來,GPT-5可能還要‘難產’一段時間。」獵豹移動董事長兼CEO傅盛表示。
近期業內對大模型在既有參數下推動套用落地、商業變現多有討論。OpenAI在繼續研發下一代更大參數模型GPT-5的同時,也在推動價格下降、套用場景和使用者群體擴大。
從API價格看,GPT-3.5 Turbo輸入、輸出每1M token(文本單位)收費0.0005美元、0.0015美元,GPT-4為0.03美元、0.06美元,GPT-4之後定價就持續下降。今年4月,OpenAI還宣布ChatGPT無需註冊便可使用,此舉被業界解讀為擴大使用者群體的努力,或其算力成本得到一定下降。此次產品更新後,奧爾特曼在其網誌中強調,OpenAI使命的一個關鍵部份是讓強大的人工智能工具免費,或以一個不錯的價格推出。
包括OpenAI推出macOS桌面級套用在內,業內近期對大模型落地端側多有期待。蘋果就多次傳出與大模型廠商洽談合作,蘋果自身還在端側小模型領域布局,並推出可支持AI執行、效能更強的M4芯片。
近日一場對談中,金沙江創投主管合夥人朱嘯虎也判斷,此前Meta釋出的Llama3系列兩個小模型效能強大,iPad Pro則用了M4芯片,以後端側可能就直接跑一個小模型了。幾百億參數的小模型也可在端側直接跑,尤其是今年下半年iPhone新品可能就類似,明年套用層將會爆發。