當前位置: 華文世界 > 科技

GPT-4o mini實測:小模型也好用,低價更是殺手鐧

2024-07-20科技

台北時間 7 月 18 日晚,OpenAI 難得推出了一個「小模型」——GPT-4o mini。

顧名思義,GPT-4o mini 是 OpenAI 在 GPT-4o 基礎上進行的一次嘗試。官方表示,GPT-4o mini 在文本智慧和多模態推理方面的基準效能超越了 GPT-3.5 Turbo,甚至在 LMSYS「聊天機器人對戰」排行榜上還強過 GPT-4。

此外,GPT-4o mini 還支持 128K Token 的長上下文視窗,以及每個請求最多 16K Token 的輸出。簡而言之,GPT-4o mini 可以記憶比 GPT-3.5 Turbo 長得多的內容和對話,還能在單次輸出更長的回答。

不過 GPT-4o mini 的核心,還是提供更好的成本效益。

根據 OpenAI 指出,GPT-4o mini 不僅效能更強,價格也來到了「白菜價」。具體來講,GPT-4o mini 每百萬個輸入 Token 的定價是 15 美分(約合人民幣 1.09 元),每百萬個輸出 Token 的定價是 60 美分(約合人民幣 4.36 元):

比 GPT-3.5 Turbo 便宜超過 60%。

對普通使用者來說,更重要的是 GPT-4o 將在 ChatGPT 中全面替代 GPT-3.5 Turbo,免費使用者也能使用。到今天(7 月 19 日)早上,小雷已經在 ChatGPT 看到了 GPT-4o mini,而不是 GPT-3.5。

圖/雷科技

另據 VentureBeat 采訪 ,OpenAI 產品負責人兼 API 部門主管 Olivier Godement 表示,GPT-4o mini 將在今年秋天透過蘋果的 Apple Intelligence,為旗下的行動裝置和 Mac 裝置提供服務。

不過這裏還有一個可能存在的誤解,盡管 GPT-4o mini 比 GPT-4o 等大模型要小得多,但其規模依然比手機上搭載的端側大模型(基本不超過 7b)大得多。因此,在 iOS 18 等系統上,GPT-4o mini 還是透過雲端而非原生的形式提供服務。

GPT-4o mini,更好用更便宜的 GPT

OpenAI 釋出 GPT-4o mini 之後,很多人最先關心的一個問題可能是:GPT-4o mini,相比 GPT-4 和 GPT-4o 用起來的表現如何?

用一個例子來簡單說明下,分別詢問透過這三個模型詢問 ChatGPT:「介紹下 OpenAI 最新釋出的 GPT-4o mini 模型。」

在生成結果上,GPT-4o mini 的回答並不包含任何數據,內容相對空洞,但相關描述基本正確。考慮到 OpenAI 指出 GPT-4o mini 只具有截至 2023 年 10 月的知識,且在 ChatGPT 中不支持聯網,可以說明 GPT-4o mini 是從命名作出的「推測」。

GPT-4o mini,圖/雷科技

相比之下,GPT-4(未經聯網搜尋)告訴我「OpenAI 並沒有釋出名為『GPT-4o mini』的模型」,直到主動要求聯網搜尋,才真正開始介紹。不過即便如此,GPT-4 還是沒有明顯超出 GPT-4o mini 生成的答案,就算明確問它「成本有多低」,也沒能給出讓人滿意的答案。

GPT-4,圖/雷科技

至於 GPT-4o(自動聯網搜尋),作為目前 OpenAI 旗下甚至全世界最強大的模型,其表現毋庸置疑。更詳略得當的介紹、更確鑿的數據和參照連結,都讓它能夠繼續穩坐大模型的頭把交椅。

GPT-4o,圖/雷科技

簡單總結一下,GPT-4o mini 相比之前的 GPT-3.5 有著明顯的進步,甚至相比 GPT-4 也有一定優勢。雖然我目前的幾個簡單測試基本符合 OpenAI 和 LMSYS 排行榜給出的結論,但要下最終結論還是太早。如果大家有需求,後續可以做更全面的對比。

另外,OpenAI 也公布 GPT-4o mini 在不同基準下的「跑分成績」,以供參考:

圖/ OpenAI

總體來看,相比 Gemini 1.5 Flash、Claude 3 Haiku 這兩個同樣主打「價效比」的模型(由超大模型衍生),GPT-4o mini 的優勢還是比較明顯,尤其是在 MGSM(數學推理)、MATH(數學解決)、HumanEval(程式碼生成)等方面。

同時 OpenAI 還表示,GPT-4o mini 在 API 中支持文本,之後還會逐步增加影像、視訊和音訊的輸入輸出支持,且得益於與 GPT-4o 共享的改進 Token 生成器,處理非英語文本現在更加經濟高效。

在 GPT-4o mini 推出之後,馬上就有海外和國內的開發者計劃切換到 GPT-4o mini 試試,比如前愛範兒副總裁兼首席設計官@Ping.開發的 AI 語音筆記 App「閃念貝殼」:

圖/ X@Ping.

事實上,對於 GPT-4o mini 來說,現階段最核心也最重要的使用者是 API 面向的開發者,而非 ChatGPT 面向的普通使用者。

OpenAI 為什麽要推出 GPT-4o?

對於 OpenAI 來說,推出 GPT-4o mini 是一件比較反常的事情,因為在此之前,從 GPT-1/2/3、GPT-3.5 到 GPT-4、GPT-4o,OpenAI 都是在推出更強的大模型,沖擊機器智慧的天花板。就算是 Turbo 系列,也是同等效能下最佳化速度和成本。

但在 GPT-4o mini 上,OpenAI 選擇了縮小模型規模、降低模型效能,以實作更具成本效益的生成式 AI 模型。

問題在於,在 OpenAI 之前,很多大模型廠商從一開始就是「大中小模型」並進的策略,就算是谷歌 Gemini 和 Anthropic Claude,也都分別推出 Gemini 1.5 Flash 和 Claude 3 Haiku。

對此,Olivier Godement 的解釋是, OpenAI 專註於建立更大、更好的模型,如 GPT-4,這需要大量的人力和計算資源。不過隨著時間的推移,OpenAI 註意到開發人員越來越渴望使用較小的模型,因此公司決定投入資源開發 GPT-4o mini,並於現在推出。

「我們的使命是使用最前沿技術,構建最強大、最有用的應用程式,我們當然希望繼續做前沿模型,推動技術進步,」Olivier Godement 在采訪中說,「但我們也希望擁有最好的小模型,我認為它會非常受歡迎。」

圖/ OpenAI

簡單來說,就是優先級的問題。但在優先級的背後,是越來越多公司偏好中小型的生成式 AI 模型。

WSJ 近期的一篇報道,就援引多家公司高管以及 Google Cloud 全球生成式 AI 產品上市策略副總裁 Oliver Parker 指出,過去三個月,企業正在集體轉向更小參數規模的生成式 AI 模型。

成本當然是最核心的原因。

根據 AIGCRank 維護的【國內外 AI 大語言模型 API 價格對比】榜單:

- GPT-4o 每百萬個輸入 Token 的定價是 5 美元(人民幣約為 36.3 元),輸出是 15 美元(人民幣約為 109 元);

- 百度文心 4.0 Turbo 的定價是輸入 30 元、輸出 60 元;

- Claude 3 Haiku 的定價是輸入是 0.25 美元(人民幣約為 1.81 元)、輸出 1.25 美元(人民幣約為 9.08 元)。

價格差距,圖/雷科技

在確保效能滿足需求的前提下,Claude 3 Haiku 「小」模型的成本優勢,不言而喻。

被認為引起國內大模型集體降價的「始作俑者」DeepSeek(深度求索),在與 Gemini 1.5 Flash 綜合表現相近的情況下,API 定價(每百萬個)可以做到輸入 1 元、輸出 2 元。阿裏通義千問的 Qwen-Long,甚至還做到了輸入 0.5 元、輸出 2 元。

對於開發者而言,「成本」和「效益」是大模型套用中最核心的兩點。而更低的大模型價格,無疑有助於更多企業和個人開發者在更多場景、更多套用中引入生成式 AI,也有助於 AI 在普通人生活、工作中的普及,正如 Oliver Parker 強調的:

我認為 GPT-4o Mini 真正體現了 OpenAI 讓 AI 更加普及的使命。如果我們希望 AI 惠及世界的每一個角落,每一個行業,每一個套用,我們必須讓 AI 更加實惠。

但更小的模型,夠用嗎?

在今年 4 月舉辦的百度 AI 開發者大會上,李彥宏指出,在一些特定場景中,經過精調後的小模型,它的使用效果可以媲美大模型。

圖/雷科技

隨後,阿裏前技術副總裁賈揚清在朋友圈表示同意:「我覺得 Robin 這點說得非常對,在初始的套用嘗試過去之後,模型的特化會是一個從效果上和從價效比上更加 make sense 的選擇。」

這不只是國內大模型行業的共識。

「在整個互聯網上訓練出來的巨型大語言模型可能會嚴重大材小用。」網路安全、內容分發和雲端運算公司 Akamai 的技術長 Robert Blumofe 表示,對於企業來說,「你並不需要一個知道【教父】所有演員、知道所有電影、知道所有電視節目的 AI 模型。」

簡單來說,大模型在朝著「通用化」的方向走了太遠,很多套用場景其實不需要大模型的「全能」。

而為了讓每一個參數都變得更有價值,大模型廠商還在一直研究更高效的蒸餾、剪枝等模型壓縮手段,試圖將大型語言模型的「知識」,更多地遷移到更小、更簡單的中小型語言模型中。

數據更是關鍵。

IEEE Spectrum,圖/雷科技

IEEE(電氣電子工程師學會)旗下雜誌【IEEE 綜覽】 援引 專業學者指出,大型語言模型直接采用互聯網高度多樣化的海量文本進行訓練,但不管是微軟的 Phi 模型,還是蘋果 Apple Intelligent 中的模型,都是使用更豐富、更復雜的數據集來訓練,具有更一致的風格和更高的品質,也更容易學習。

打個比方,「大」模型相當於憑借著超高的記憶力和計算能力,在互聯網這個充斥各種高品質、低品質的「大染缸」中學習;而現在的「小」模型則是直接學習經過篩選、提煉的「教課書」,自然更容易學進去。

不過有意思的是,去年的時候行業更多認為,「小」模型真正的用武之地是在裝置端,諸如智慧型手機、膝上型電腦等計算裝置中,但更多廠商和開發者在雲端還是更重視「大」模型。

但在過去幾個月,「小」模型還沒有在裝置端真正火起來,也開始成為雲端的趨勢所在。

究其根本,其實還是目前大模型在實際套用中「成本」與「效益」的不匹配,而「效益」還需要繼續摸索、嘗試的當下,「成本」就成了必須要解決的主要挑戰。

寫在最後

大模型不再「參數為王」。

在今年 4 月舉辦的 WIRED25(【連線】:改變世界的 25 人)活動上,OpenAI CEO 山姆·阿特曼(Sam Altman) 表示 大模型的進步不會來自模型的更大化,「我認為我們正處在巨大模型時代的終結。」

圖/ OpenAI

某種程度上,山姆·阿特曼暗示了醞釀已久的 GPT-5 不會在參數上繼續擴大,而是透過演算法或數據更進一步提高大模型的「智慧」,從而通向 AGI(通用智慧)。

至於剛剛推出的 GPT-4o mini,則是代表了另一條路徑,一條將 AI 更快普及到全世界的路徑。

但要走通這條路,最核心的問題就是在確保「效益」的同時,盡可能地降低「成本」,讓更多開發者用上 AI,用更具創意和實際價值的套用,讓更多使用者從中受益。

而這,可能也是國產廠商最擅長的。

2024上半年,科技圈風起雲湧。

大模型加速落地,AI手機、AI PC、AI家電、AI搜尋、AI電商……AI套用層出不窮;

Vision Pro開售並登陸中國市場,再掀XR空間計算浪潮;

HarmonyOS NEXT正式釋出,移動OS生態生變;

汽車全面進入「下半場」,智慧化成頭等大事;

電商競爭日益劇烈,卷低價更卷服務;

出海浪潮風起雲湧,中國品牌邁上全球化征程;

……

7月流火,雷科技·年中回顧專題上線,總結科技產業2024上半年值得記錄的品牌、技術和產品,記錄過去、展望未來,敬請關註。