當前位置: 華文世界 > 科技

電影中的人工智慧來了!OpenAI釋出全能大模型:文圖音任意組合輸出,可實作人類級別響應

2024-05-14科技
OpenAI的新品終於官宣,是一個「全能助手」。
台北時間5月14日淩晨,OpenAI釋出最新多模態大模型 GPT-4o(o代表omini,全能),支持文本、音訊和影像的任意組合輸入,並生成文本、音訊和影像的任意組合輸出。文本、推理和編碼智慧方面效能達到了GPT-4 Turbo水平,同時在多語言、音訊和視覺能力方面也達到新高。據介紹,GPT-4o的速度比GPT-4 Turbo快2倍,速率限制提高5倍,最高可達每分鐘1000萬token,而價格則便宜了一半。
OpenAI技術長公尺拉·穆拉蒂(Muri Murati)在釋出會上表示:「透過語音、文本和視覺進行推理非常重要,因為我們正在研究與機器互動的未來。」
官網顯示,GPT-4o的文本和影像功能將在ChatGPT更新後提供給所有使用者,Plus使用者的訊息數量使用上限是免費版的5倍(使用上限後會切換回GPT-3.5版本)。而新版語音模式將在未來幾周向Plus使用者推出,同時也將會在API(套用介面)中向小範圍推出對GPT-4o的新音訊和視訊功能的支持。
穆拉蒂在OpenAI春季更新釋出會上介紹GPT-4o
在釋出會現場演示中,GPT-4o可以像人工智慧助手一樣,實作使用者與ChatGPT的即時互動,不再是一問一答,也不需要其他按鍵操作。
比如,使用者可以說「Hi,ChatGPT」並提出問題,也可以在ChatGPT回答時打斷它,它還可以辨識使用者聲音中展現的情感,甚至即時根據使用者的需求來使用不同情感風格的聲音。
據介紹,GPT-4o的音訊輸入平均反應時間為0.32秒,與人類對話中的反應時間相似。
OpenAI表示,在GPT-4o之前,使用語音模式與ChatGPT對話的平均延遲時間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。此前的語音模式由三個獨立模型組成:一個簡單模型將音訊轉為文本,GPT-4接收文本並輸出文本,第三個簡單模型將文本轉回音訊。這個過程也讓主要的智慧源GPT-4遺失了很多資訊,比如不能直接觀察音調、多人講話或背景噪音,也不能輸出笑聲、歌聲或表達情感。而GPT-4o透過在文本、視覺和音訊方面訓練了一個端到端新模型,所有輸入和輸出都由同一個神經網路處理。
不過,OpenAI也坦言,由於GPT-4o是公司第一個結合了所有前述模式的模型,因此在探索模型功能及其局限性方面仍處於起步階段,GPT-4o也開始擴大紅隊(測試)的存取許可權。
此外,GPT-4o還提高了ChatGPT的視覺能力。在現場演示中,透過手機即時拍攝的視訊或電腦桌面螢幕上的截圖,ChatGPT可以快速回答相關問題,幫助解決計算、編程等問題。
演示中還出現了一段小插曲。因為「幻覺」問題,ChatGPT在還沒開啟網路攝影機看到畫面時就表示理解了,在演示者提示後,她說「哎呀,我太興奮了」,隨後即時指導完成了一道數學題。
同時,OpenAI還在X(推特)上即時搜集到網友的反饋,進行了ChatGPT的情緒分析演示。透過演示者的即時網路攝影機畫面,對表情中的開心、興奮等情緒做出了分析。
GPT-4o的英語和程式碼文本效能與GPT-4 Turbo相當,在非英語語言文本方面也有顯著提高,能支持50種語言。釋出會上,穆拉蒂演示了讓全新ChatGPT充當只會義大利語與只會英語的兩人的轉譯,實作了跨語種交流的無縫銜接。
GPT-4o速度比GPT-4 Turbo快2倍,價格則便宜了一半
釋出會上,ChatGPT還釋出了電腦桌面版和新UI界面。根據官方公告,目前僅適用於macOS,Windows版將在今年晚些時候推出。
「我們知道這些模型越來越復雜,但我們希望互動體驗變得更加自然、輕松,並且讓你根本不關註使用者介面,而是專註於與GPT(互動)。」穆拉蒂表示。
OpenAI CEO山姆·阿特曼(Sam Altman)也表示:「對我來說,與電腦交談從來沒有真正自然過,而現在卻很自然……我真的看到了一個令人興奮的未來,我們可以用電腦做比以往更多的事情。」
「AI達到人類級別的響應時間和表現力是一個很大的改變,給人的感覺就像電影中的人工智慧,而它的真實性仍然讓我感到有些驚訝。」他表示,「最初的ChatGPT展示了語言界面的雛形,而這款新模型給人的感覺卻截然不同,它快速、智慧、有趣、自然而且樂於助人。」
阿特曼還發文「her」,或許也表達了他對GPT-4o的評價以及對未來的暢想(在電影【Her】中,人工智慧助手Samantha主動給男主人公打了電話,告知他一些事情)。
山姆·阿特曼的推文
阿特曼表示,OpenAI的一項重要使命就是免費(或以優惠價格)向人們提供功能強大的人工智慧工具,「我感到非常自豪的是,我們在ChatGPT中免費提供了世界上最好的模型,並且沒有廣告或類似的東西」。
他表示:「我們是一家企業,會找到很多可以收費的東西,這將幫助我們為數十億人提供免費、出色的人工智慧服務(希望如此)。」
此前,據外媒報道,蘋果公司已接近與OpenAI達成協定,今年將後者的部份技術引入iPhone,提供由ChatGPT支持的「聊天機器人」作為iOS 18中人工智慧功能的一部份。
不過,蘋果同時還與谷歌就授權Gemini聊天機器人進行了談判。而谷歌將在OpenAI此次春季更新釋出會之後一天舉行I/O開發者大會,谷歌在大會的官方博文中曾提到「Gemini 時代」,預計將會釋出Gemini大模型的最新動態。
澎湃新聞記者 秦盛
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)