比GPT-3.5 Turbo便宜超60% OpenAI推出小模型卷價效比

2024-07-22科技

7月18日，OpenAI正式推出新一代入門級別人工智慧模型「GPT-4o mini」，稱這款新模型是「功能最強、價效比最高的小參數模型」。

從OpenAI官網的介紹來看，GPT-4o mini在文本智慧和多模態推理方面的基準效能超越了GPT-3.5 Turbo，在LMSYS（指聊天機器人對戰）排行榜上還超過GPT-4。而價格層面，GPT-4o mini相比GPT-3.5 Turbo便宜了超過60%。

在「大力出奇跡」的Scaling Law（尺度定律）之外，如何做好小模型正在成為大模型廠家的新考題。

OpenAI入局小模型賽場

OpenAI表示，預計GPT-4o mini將透過大幅降低智慧的成本，顯著擴充套件AI套用的範圍。據官網介紹，GPT-4o mini的優勢在於低成本和低延遲，支持廣泛的任務，例如串聯或並列多個模型呼叫的應用程式（例如呼叫多個API）；向模型傳遞大量上下文（例如完整程式碼庫或對話歷史）；或透過快速、即時的文本響應與客戶互動（例如聊天機器人）。

目前，GPT-4o mini在API中支持文本和視覺功能，未來將支持文本、影像、視訊和音訊的輸入和輸出。該模型具有128K Token的上下文視窗，數據更新至2023年10月。

效能方面，OpenAI稱，GPT-4o mini在涉及文本和視覺的推理任務中優於其他小模型，在MMLU（文本智慧和推理基準測試）中得分為82.0%，相比之下，Gemini Flash為77.9%，Claude Haiku為73.8%。

在數學推理和編碼任務方面，GPT-4o mini超過了市場大部份小模型。在MGSM（數學推理評估）中，GPT-4o mini得分為87.0%，而谷歌釋出的Gemini Flash為75.5%；在HumanEval（編碼效能評估）中，GPT-4o mini得分為87.2%，而Gemini Flash為71.5%。

價格方面，GPT-4o mini每百萬個輸入Token為15美分（約合人民幣1.09元），每百萬個輸出Token為60美分（約合人民幣4.36元）。OpenAI表示，這一價格相較GPT-3.5 Turbo便宜超60%。

OpenAI表示，在過去幾年中，人們見證了AI的顯著進步和成本的大幅降低。例如，自2022年推出文本模型Text-Davinci-003以來，GPT-4o mini的每個Token成本已經下降了99%。

按照設想，OpenAI希望未來能夠將一個模型無縫整合到每個應用程式和每個網站中，而GPT-4o mini正在為開發者更高效和更經濟地構建和擴充套件強大的AI應用程式鋪平道路。

不過，在小模型賽場中，OpenAI的各家競爭對手已經早早就位。例如谷歌推出的Gemini Flash，Anthropic旗下的Claude Haike等。近日，Mitral AI與輝達推出的小模型Mistral Nemo上線，聲稱效能趕超Meta推出的Llama-3 8B。

大模型越卷越「小」

這一年來，「降本增效」已經成為大部份大模型公司的共識。

平安證券研報認為，OpenAI新模型GPT-4o mini兼具效能與價效比，有望加速大模型套用落地。當前全球範圍內的大模型逐漸呈現由單方面的效能角逐，轉向效能與實用性並重的發展趨勢。大模型能力達到一定水平時必然會走向套用，大模型廠商透過提升其產品價效比，助推下遊套用端的推廣部署，有望加速大模型產業鏈商業閉環的形成。

一方面，上半年開打的大模型價格戰不斷蔓延，從兩家海外AI巨頭OpenAI和谷歌開始，到國內字節跳動、阿裏、百度、智譜AI、科大訊飛等企業，入局者不斷增加。從OpenAI此舉來看，這場價格戰還將持續。

IDC中國研究經理程蔭此前在接受【每日經濟新聞】記者采訪時就談到，從短期的發展來看，大模型能力更新叠代後將會走向趨同，無論是國內還是國外的技術供應商都不能建立起長久的護城河。一些技術供應商選擇直接砍掉大模型成本上的門檻，除了出於促進大模型落地套用，也有增加曝光度，爭搶使用者、防止使用者流失的動因。

另一方面，透過「小模型」，以更低的成本，垂直覆蓋更多的套用場景，以推動端側套用的落地同樣成為行業趨勢。同時，隨著以蘋果為代表的各大手機廠商加速發力AI手機，端側大模型正在成為新的競爭焦點。

專註端側模型的面壁智慧CEO李大海此前在接受包括【每日經濟新聞】在內的記者采訪時就談到，相同智慧水平的模型，每8個月其參數規模將減少一半，這與莫耳定律具有一定的相似性。在同等效能下，參數規模減小，說明大模型的知識密度在不斷提高。李大海表示，隨著大模型知識密度的提升和端側算力的增強，兩個因素疊加，有信心在2026年年底前研發出達到GPT-4水平的端側模型，當端側模型能夠實作GPT-4水平時，很多端側的產品會更快落地。

李大海認為，當端側模型可以套用，其成本會更低，且可靠性更高，不需要依賴網路。例如，在使用者需求交流時，基於端側模型的陪伴機器人能夠迅速作出反應。這種比較優勢使得在適用端側模型的場景中，大家會更傾向於選擇端側解決方案。

今年3月，百度也釋出ERNIESpeed、ERNIE Lite、ERNIE Tiny三個輕量模型。百度集團董事長李彥宏在今年4月的一場公開演講中也談到，MoE、小模型和智慧體是值得關註的三個方向。「透過大模型，壓縮蒸餾出來一個基礎模型，然後再用數據去訓練，這比從頭開始訓小模型效果要好很多，比基於開源模型訓出來的模型效果更好、速度更快、成本更低。」李彥宏表示。

每日經濟新聞