「功能最強、成本偏低」！OpenAI釋出GPT-4o mini 入局小模型競爭

2024-07-18科技

OpenAI美東時間周四推出「GPT-4o mini」，入局「小而精」AI模型競爭，稱這款新模型是「功能最強、成本偏低的模型」，計劃今後整合影像、視訊、音訊到這個模型中。

比GPT-3.5 Turbo便宜超過60% 聊天表現優於競品

該公司表示，GPT-4o mini從周四起向ChatGPT的免費使用者、ChatGPT Plus和團隊訂閱使用者開放，並將在下周向ChatGPT企業使用者開放。GPT-4o mini將取代ChatGPT中的舊模型GPT-3.5 Turbo。OpenAI表示，GPT-4o mini的成本為每百萬輸入標記（token）15美分和每百萬輸出標記60美分，比GPT-3.5 Turbo便宜超過60%。

該公司還表示，新模型目前在聊天偏好上表現優於GPT-4模型，並在大規模多工語言理解（MMLU）測試中獲得了82%的得分。媒體報道，MMLU是一種用於評估語言模型能力的文本智慧和推理基準。更高的MMLU得分表明它可以在各種領域中更好地理解和使用語言，增強其在現實世界中的套用。

根據OpenAI的數據，GPT-4o mini模型的得分為82%，比另外兩款低成本競品更高，Google的Gemini Flash得分為77.9%，Anthropic的Claude Haiku得分為73.8%。

而在更大模型中，GPT-3.5在這項測試中的得分為70%，GPT-4o得分為88.7%，而Google聲稱其Gemini Ultra取得了有史以來最高的90%得分。

分析認為，較小的語言模型需要較少的計算能力執行，使其成為資源有限的公司部署生成式AI的更實惠的選擇。

此外，這個新的輕量化模型還將在API中支持文本和視覺功能，OpenAI表示，它很快就會處理所有多模態輸入和輸出，如視訊和音訊。擁有這些功能後，這可能會像更強大的虛擬助手一樣，能夠理解你的旅行行程並提出建議。然而，該模型目前只能主要用於簡單任務。

「小而精」AI模型競爭激烈 OpenAI最後入局

媒體報道，由微軟支持的OpenAI的估值已超過800億美元，雖然在生成式AI市場仍然占據領頭羊地位，但該公司面臨的競爭壓力已經越來越大。OpenAI還需要找到賺錢的方式，因為該公司在處理器和基礎設施上花費了大量資金來構建和訓練其模型。

然而，不少公司無法負擔大型、更昂貴的模型，因此輕量化且廉價的模型可能更受歡迎。在此之前，許多開發人員會選擇Claude 3 Haiku或Gemini 1.5 Flash，而不是支付執行最強大模型所需的高昂計算成本。例如，一個較小的模型可能最適合自動化處理高量、基礎任務，而一個較大的模型則可能處理更復雜的工作。一些開發人員可能希望在一個應用程式中同時使用這兩種模型。

OpenAI的API產品負責人Olivier Godement在接受媒體采訪時解釋了為何該公司未能更早推出「小而精」的AI模型，他說，這純粹是「優先級」的問題，因為OpenAI專註於建立更大、更好的模型，如GPT-4，這需要大量的人力和計算資源。隨著時間的推移，OpenAI註意到開發人員越來越渴望使用較小的模型，因此公司決定現在是投入資源開發GPT-4o Mini的時機。

「我們的使命是使最前沿技術、構建最強大、最有用的應用程式，我們當然希望繼續做前沿模型，推動技術進步，」OpenAI的API產品負責人Olivier Godement在接受媒體采訪時說。「但我們也希望擁有最好的小模型，我認為它會非常受歡迎。」

「我認為GPT-4o Mini真正體現了OpenAI讓AI更加普及的使命。如果我們希望AI惠及世界的每一個角落，每一個行業，每一個套用，我們必須讓AI更加實惠。」OpenAI的API平台產品負責人Olivier Godement對媒體表示。

GPT-4o mini能幫助員工專心

Godement表示，過去一周內，一些開發人員已經在試用這個模型。

OpenAI讓金融科技初創公司Ramp測試了這款模型，使用GPT-4o Mini構建了一個提取收據上的費用數據的工具。因此，使用者可以上傳收據照片，模型會為他們整理數據。電子信件客戶端Superhuman也測試了GPT-4o Mini，並用它建立了一個自動建議信件回復的功能。

最初，GPT-4o mini將能夠處理和生成文本和影像。最終版本完成後，OpenAI表示它將能夠處理其他型別的內容。

OpenAI還表示，GPT-4o mini是該公司第一個使用其新安全策略「指令層級」的AI模型。這種方法的目的是使AI系統優先處理某些指令——例如來自公司的指令——以使人們更難讓工具做不該做的事情。

分析認為，GPT-4o mini模型是OpenAI致力於「多模態性」的一部份，即提供廣泛型別的AI生成媒體（如文本、影像、音訊和視訊）在一個工具：ChatGPT中。

去年，OpenAI營運長Brad Lightcap告訴媒體：

「世界是多模態的。如果你考慮我們作為人類處理和參與世界的方式，我們看見東西，聽到東西，說話——世界不僅僅是文本。因此，對我們來說，只有文本和程式碼作為單一模態、單一介面，感覺總是不完整的，因為這些模型的強大能力和它們能做的事情遠遠不止於此。」

本文來自華爾街見聞，歡迎下載APP檢視更多