電影中的人工智慧來了！OpenAI釋出全能大模型：文圖音任意組合輸出，可實作人類級別響應

2024-05-14科技

OpenAI的新品終於官宣，是一個「全能助手」。

台北時間5月14日淩晨，OpenAI釋出最新多模態大模型 GPT-4o（o代表omini，全能），支持文本、音訊和影像的任意組合輸入，並生成文本、音訊和影像的任意組合輸出。文本、推理和編碼智慧方面效能達到了GPT-4 Turbo水平，同時在多語言、音訊和視覺能力方面也達到新高。據介紹，GPT-4o的速度比GPT-4 Turbo快2倍，速率限制提高5倍，最高可達每分鐘1000萬token，而價格則便宜了一半。

OpenAI技術長公尺拉·穆拉蒂（Muri Murati）在釋出會上表示：「透過語音、文本和視覺進行推理非常重要，因為我們正在研究與機器互動的未來。」

官網顯示，GPT-4o的文本和影像功能將在ChatGPT更新後提供給所有使用者，Plus使用者的訊息數量使用上限是免費版的5倍（使用上限後會切換回GPT-3.5版本）。而新版語音模式將在未來幾周向Plus使用者推出，同時也將會在API（套用介面）中向小範圍推出對GPT-4o的新音訊和視訊功能的支持。

穆拉蒂在OpenAI春季更新釋出會上介紹GPT-4o

在釋出會現場演示中，GPT-4o可以像人工智慧助手一樣，實作使用者與ChatGPT的即時互動，不再是一問一答，也不需要其他按鍵操作。

比如，使用者可以說「Hi，ChatGPT」並提出問題，也可以在ChatGPT回答時打斷它，它還可以辨識使用者聲音中展現的情感，甚至即時根據使用者的需求來使用不同情感風格的聲音。

據介紹，GPT-4o的音訊輸入平均反應時間為0.32秒，與人類對話中的反應時間相似。

OpenAI表示，在GPT-4o之前，使用語音模式與ChatGPT對話的平均延遲時間為2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的語音模式由三個獨立模型組成：一個簡單模型將音訊轉為文本，GPT-4接收文本並輸出文本，第三個簡單模型將文本轉回音訊。這個過程也讓主要的智慧源GPT-4遺失了很多資訊，比如不能直接觀察音調、多人講話或背景噪音，也不能輸出笑聲、歌聲或表達情感。而GPT-4o透過在文本、視覺和音訊方面訓練了一個端到端新模型，所有輸入和輸出都由同一個神經網路處理。

不過，OpenAI也坦言，由於GPT-4o是公司第一個結合了所有前述模式的模型，因此在探索模型功能及其局限性方面仍處於起步階段，GPT-4o也開始擴大紅隊（測試）的存取許可權。

此外，GPT-4o還提高了ChatGPT的視覺能力。在現場演示中，透過手機即時拍攝的視訊或電腦桌面螢幕上的截圖，ChatGPT可以快速回答相關問題，幫助解決計算、編程等問題。

演示中還出現了一段小插曲。因為「幻覺」問題，ChatGPT在還沒開啟網路攝影機看到畫面時就表示理解了，在演示者提示後，她說「哎呀，我太興奮了」，隨後即時指導完成了一道數學題。

同時，OpenAI還在X（推特）上即時搜集到網友的反饋，進行了ChatGPT的情緒分析演示。透過演示者的即時網路攝影機畫面，對表情中的開心、興奮等情緒做出了分析。

GPT-4o的英語和程式碼文本效能與GPT-4 Turbo相當，在非英語語言文本方面也有顯著提高，能支持50種語言。釋出會上，穆拉蒂演示了讓全新ChatGPT充當只會義大利語與只會英語的兩人的轉譯，實作了跨語種交流的無縫銜接。

GPT-4o速度比GPT-4 Turbo快2倍，價格則便宜了一半

釋出會上，ChatGPT還釋出了電腦桌面版和新UI界面。根據官方公告，目前僅適用於macOS，Windows版將在今年晚些時候推出。

「我們知道這些模型越來越復雜，但我們希望互動體驗變得更加自然、輕松，並且讓你根本不關註使用者介面，而是專註於與GPT（互動）。」穆拉蒂表示。

OpenAI CEO山姆·阿特曼（Sam Altman）也表示：「對我來說，與電腦交談從來沒有真正自然過，而現在卻很自然……我真的看到了一個令人興奮的未來，我們可以用電腦做比以往更多的事情。」

「AI達到人類級別的響應時間和表現力是一個很大的改變，給人的感覺就像電影中的人工智慧，而它的真實性仍然讓我感到有些驚訝。」他表示，「最初的ChatGPT展示了語言界面的雛形，而這款新模型給人的感覺卻截然不同，它快速、智慧、有趣、自然而且樂於助人。」

阿特曼還發文「her」，或許也表達了他對GPT-4o的評價以及對未來的暢想（在電影【Her】中，人工智慧助手Samantha主動給男主人公打了電話，告知他一些事情）。

山姆·阿特曼的推文

阿特曼表示，OpenAI的一項重要使命就是免費（或以優惠價格）向人們提供功能強大的人工智慧工具，「我感到非常自豪的是，我們在ChatGPT中免費提供了世界上最好的模型，並且沒有廣告或類似的東西」。

他表示：「我們是一家企業，會找到很多可以收費的東西，這將幫助我們為數十億人提供免費、出色的人工智慧服務（希望如此）。」

此前，據外媒報道，蘋果公司已接近與OpenAI達成協定，今年將後者的部份技術引入iPhone，提供由ChatGPT支持的「聊天機器人」作為iOS 18中人工智慧功能的一部份。

不過，蘋果同時還與谷歌就授權Gemini聊天機器人進行了談判。而谷歌將在OpenAI此次春季更新釋出會之後一天舉行I/O開發者大會，谷歌在大會的官方博文中曾提到「Gemini 時代」，預計將會釋出Gemini大模型的最新動態。

澎湃新聞記者秦盛

(本文來自澎湃新聞，更多原創資訊請下載「澎湃新聞」APP)