記者實測｜速度更快成本更低，人機互動更自然，OpenAI新模型免費開放 - 科技

2024-05-14科技

當地時間5月13日，OpenAI透過直播展示了產品更新。與此前傳出的市場訊息不同，OpenAI並未推出搜尋引擎，也未推出GPT-4.5或GPT-5，而是釋出了GPT-4系列新模型GPT-4o以及AI聊天機器人ChatGPT的桌面版本，聚焦多模態和端側套用。

此前OpenAI公司CEO奧爾特曼（Sam Altman）就已經否認了公司將會釋出GPT-5，他表示新版GPT非常「神奇」。根據OpenAI官方網站介紹，GPT-4o中的「o」代表Omni，也就是「全能」的意思。

據介紹，GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的兩倍，但成本僅為GPT-4 Turbo的一半，影片、音訊功能得到改善。OpenAI CEO奧爾特曼（Sam Altman）在網誌中表示，ChatGPT免費使用者也能用上新釋出的GPT-4o。此外，OpenAI還與蘋果走到一起，推出了適用於macOS的桌面級套用。

OpenAI技術負責人Mira Murati在直播中表示：「這是我們第一次在易用性方面真正邁出的一大步。」

價格低於GPT-4 Turbo

OpenAI研究員Mark Chen表示，新模型具有「感知情緒」的能力，能輸出笑聲、歌唱或表達情感，還可以處理使用者打斷它的情況。

在直播中，OpenAI演示了一段OpenAI員工與GPT-4o對話的影片，模型反應速度與人類相近，GPT-4o可利用手機網絡攝影機描述其「看到」的東西。

另一段展示影片裏，GPT-4o被裝在兩個手機上，其中一個代表人類與電信公司打電話溝通器材更換事項，另一個GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機上的即時轉譯能力。

根據OpenAI介紹，GPT-4o與GPT-3.5、GPT-4的語音對談機制不同。GPT-3.5和GPT-4會先將音訊轉換為文本，再接收文本生成文本，最後將文本轉換為音訊，經歷這三個過程，音訊中的情感表達等資訊會被折損，而GPT-4o是跨文本、視覺和音訊的端到端模型，是OpenAI第一個綜合了這些維度的模型，可更好進行對談。

OpenAI將GPT-4o定位為GPT-4性能階別的模型。據介紹，GPT-4o在傳統基準測試中，文本、推理、編碼能力達到GPT-4 Turbo的水平。該模型接收文本、音訊和影像輸入時，平均320毫秒響應音訊輸入，與人類對話中的響應時間相似，英文文本和程式碼能力與GPT-4 Turbo相當，在非英文文本上有改善，提高了ChatGPT針對50種不同語言的質素和速度，並透過OpenAI的API提供給開發人員，使其即時就可以開始使用新模型構建應用程式。

第一財經記者在OpenAI官網看到，GPT-4o輸入、輸出每1M token（文本單位）收費0.005美元、0.015美元，GPT-4 Turbo輸入、輸出每1M token收費0.01美元、0.03美元。

「在過去兩年中，我們花了大量精力在堆疊的每一層上提高-效率，作為這項研究的第一個成果，我們能使GPT-4級別的模型更廣泛套用，GPT-4o即日起擴充套件紅隊存取許可權。」OpenAI官網稱，GPT-4o的文本和影像功能今日在ChatGPT中推出，「我們計劃在未來幾周內在API中向一小部份值得信賴的合作夥伴推出對GPT-4o新音訊和影片功能的支持。」

第一財經記者在ChatGPT網站看到，ChatGPT已接入GPT-4o有限存取許可權，但免費使用者還不能使用圖片生成功能。

記者使用了GPT-4o來描述圖片，發現其生成結果較準確，5秒左右就能生成描述圖片的文字。

此外，OpenAI還宣布推出一款適用於macOS的桌面級套用，使用鍵盤快捷鍵就可向ChatGPT提問。使用者可透過電腦與ChatGPT語音對話，GPT-4o的新音訊和影片功能後續將推出。OpenAI已向Plus使用者推出macOS應用程式，今年晚些時候還將推出Windows版本。

值得註意的是，近日還有訊息傳出蘋果與OpenAI商談，以便在下一代iPhone作業系統使用ChatGPT功能。此次OpenAI重點展示了大模型在手機端側套用的能力。

不過，此次OpenAI並未釋出關於新模型的論文或技術文件。

今日，OpenAI特別強調了新模型的風險和局限性。該公司稱：「GPT-4o的音訊模式帶來了各種新的風險。在接下來的幾周和幾個月裏，我們將更關註技術基礎設施、培訓後的可用性以及釋出其他模式所需的安全性。例如，在釋出時，音訊輸出將僅限於選擇預設的聲音，並將遵守我們現有的安全政策。」

發力端側套用

不少科技界人士發表了對OpenAI此次產品更新的看法。「我沒想到GPT-4o會接近GPT-5。傳聞中OpenAI的‘Arrakis’模型就采用多模態輸入和輸入。事實上，它可能是GPT-5的一個早期檢查點（checkpoint），尚未完成訓練。」輝達高級科學家Jim Fan在社交媒體上評論稱。

Jim Fan認為，在谷歌召開I/O大會前，OpenAI寧願釋出超過人們對GPT-4.5心理預期的產品，也不願因為推出達不到人們期望的GPT-5，而讓人感到失望。此外，誰先贏得蘋果，誰就將大獲全勝，與iOS整合有幾個層次，例如拋棄Siri，OpenAI為iOS提煉出一個更小層級、器材上執行的GPT-4o。雖然此次未公開相關論文，加利福尼亞大學聖克魯茲分校教授Xin Eric Wang還是評論認為，一個演示勝過千篇論文。

「比較讓人失望的是，這次OpenAI沒有釋出GPT-5，連GPT-4.5都沒看到。OpenAI釋出了一系列套用，最重要的是釋出了語音助手，由於使用了端到端大模型技術，體驗遠超Siri。OpenAI釋出套用，恰恰說明套用在人工智能領域大有可為。目前看來，GPT-5可能還要‘難產’一段時間。」獵豹移動董事長兼CEO傅盛表示。

近期業內對大模型在既有參數下推動套用落地、商業變現多有討論。OpenAI在繼續研發下一代更大參數模型GPT-5的同時，也在推動價格下降、套用場景和使用者群體擴大。

從API價格看，GPT-3.5 Turbo輸入、輸出每1M token（文本單位）收費0.0005美元、0.0015美元，GPT-4為0.03美元、0.06美元，GPT-4之後定價就持續下降。今年4月，OpenAI還宣布ChatGPT無需註冊便可使用，此舉被業界解讀為擴大使用者群體的努力，或其算力成本得到一定下降。此次產品更新後，奧爾特曼在其網誌中強調，OpenAI使命的一個關鍵部份是讓強大的人工智能工具免費，或以一個不錯的價格推出。

包括OpenAI推出macOS桌面級套用在內，業內近期對大模型落地端側多有期待。蘋果就多次傳出與大模型廠商洽談合作，蘋果自身還在端側小模型領域布局，並推出可支持AI執行、效能更強的M4芯片。

近日一場對談中，金沙江創投主管合夥人朱嘯虎也判斷，此前Meta釋出的Llama3系列兩個小模型效能強大，iPad Pro則用了M4芯片，以後端側可能就直接跑一個小模型了。幾百億參數的小模型也可在端側直接跑，尤其是今年下半年iPhone新品可能就類似，明年套用層將會爆發。