當前位置: 華文世界 > 科技

OpenAI新AI多模模型GPT-4o提供所有ChatGPT使用者,速度更快,價格減半

2024-05-14科技

經過上周賣關子吊足媒體胃口之後,OpenAI昨(13)日宣布最新多模AI模型GPT-4o,將提供給所有ChatGPT服務,包括免費版本。對開發人員而言,新模型比GPT-4T速度快2倍,限制頻寬提高5倍,價格僅一半。

OpenAI行政總裁Sam Altman指出,GPT-4o更聰明,更快,且具原生多模能力。文本及圖片輸入能力現在將逐步部署到ChatGPT,包括免費版,但暫時不能生成圖片,也還不會輸出、輸入語音。

最新宣布讓上周猜測的媒體撲了個空。彭博、The Information、路透社相繼報道OpenAI將推出搜尋服務挑戰Google及Perplexity AI。但周末Altman預告,不是GPT-5,也不是搜尋引擎,而是「像魔法一般的」ChatGPT及GPT-4更新功能。

GPT-4o的o代表的是omni,意味著可接受文本、聲音和影像任何組合的提示輸入,而且生成的輸出也可以是文本、聲音和影像的整合。OpenAI強調GPT-4o具高效能,平均320毫秒即可對聲音輸入產生回應,等同人類反應時間,最快則只需232毫秒。

一如所有廠商公布新模型的做法,OpenAI也提供數據,顯示GPT-4o視覺及聲音理解能力比前代及競爭者更優異,其中在文本、理解、程式撰寫效能已具GPT-4 Turbo水準,在多語能力(尤其是英文)、聲音轉譯和視覺理解能力都比GPT-4、GPT-4T、Claude 3 Opus、Gemini Pro 1.5、Meta Llama3 400b來得高。

圖片來源/OpenAI

OpenAI解釋新模型的語音模式效能提升的原因。過去GPT-3.5及GPT-4下的語音模式執行是以三個模型繼續執行而成:第一個模型將聲音轉錄成文本,由GPT-3.5或GPT-4產發文本對話內容,再由第三個模型將文本轉回聲音。不但增長延遲性,且因過程中GPT-3.5或GPT-4模型喪失大量資訊,使其無法觀察出聲調、多名說話者、背景噪音,也無法產出笑聲、不會唱歌或表達情緒。但GPT-4o是能具備文本、視覺和聲音理解能力的單一模型,輸出輸入都在同一神經網絡中處理而成,使互動能力速度和表現豐富度大增。

OpenAI並提供多段影片展示新模型的能力,包括二個GPT-4o為基礎的聊天機器人扮演手機企業客服中心人員和客戶交談;一個聊天機器人問問題,另一個則描述它「看」到的OpenAI員工形象描述,前者還能根據其描述即興創作歌唱;以及聊天機器人可和OpenAI員工流暢對談,期間還能發出笑聲,或是在人類插嘴打斷時自動停下來。

影片中的聊天機器人聲音自然生動,媒體形容很像Altman最喜歡的電影【雲端情人】(Her)女主角Scarlett Johansson的聲音。

不過,在說明GPT-4o強大能力後,OpenAI強調它的安全性。根據其整備度框架(Preparedness Framework)及人類評估,新模型在網絡安全、CBRN(化學、生物、放射及核能)威脅、誘騙(persuasion)能力及模型自主能力都在中度以下。該公司也強調GPT-4o經過外部團隊及70多名外部跨領域專家評估,協助降低可能的社會心理、偏見及假訊息風險。

OpenAI今天起將GPT-4o的文本及影像輸入、以及文本輸出能力逐步部署到所有ChatGPT,包括免費版,但付費的Plus版,訊息輸入上限為5倍之多。為了應對ChatGPT語音模式(voice mode)可能的語音deepfake風險,聲音輸出僅局限數種限定的聲音,也說都會遵循現有安全策略。GPT-4o為基礎的語音模式alpha版,未來幾個星期內只會提供給ChatGPT Plus。

針對開發人員,現在可以API存取GPT-4o文本和視覺模型。相較GPT-4 Turbo,新模型速度快2倍,限制頻寬提高5倍,價格僅一半。OpenAI計劃幾周內,會對少數使用者及信任夥伴提供聲音和影片功能。