微軟CTO堅信大型語言模型的「規模定律」依然奏效，未來可期

2024-07-16科技

IT之家 7 月 16 日訊息，微軟技術長（CTO）凱文史葛（Kevin Scott）上周在接受紅杉資本旗下播客采訪時，重申了他堅信大型語言模型 (LLM) 的「規模定律」將繼續推動人工智能進步的觀點，盡管該領域一些人懷疑進步已經停滯。史葛在推動微軟與 OpenAI 達成 130 億美元的技術共享協定方面發揮了關鍵作用。

史葛表示：「其他人可能持不同觀點，但我認為規模化並未達到邊際收益遞減的臨界點。我想讓人們理解這裏存在著一個指數級提升的過程，遺憾的是，你只能每隔幾年才能看到一次，因為建造超級電腦然後用它們訓練模型都需要時間。」

2020 年，OpenAI 研究人員探索了 LLM 的「規模定律」，該定律表明，隨著模型變得更大（參數更多）、訓練數據更多以及擁有更強大的計算能力，語言模型的效能往往會呈可預測的提升。這一定律意味著，僅僅增加模型規模和訓練數據，就能夠顯著提升人工智能能力，而無需取得根本性的演算法突破。

然而，此後也有其他研究人員對「規模定律」的長期有效性提出質疑。不過，該概念仍是 OpenAI 人工智能研發理念的基石。史葛所持的樂觀態度與部份人工智能領域批評人士的觀點形成鮮明對比，一些人認為，大型語言模型的進步在類似 GPT-4 的模型級別已經停滯不前。這種觀點主要基於對谷歌 Gemini 1.5 Pro、Anthropic 的 Claude Opus 以及 OpenAI 的 GPT-4o 等最新模型的非正式觀察和一些基準測試結果。一些人認為，這些模型並沒有像前幾代模型那樣取得飛躍性的進步，大型語言模型的發展可能正在接近「邊際收益遞減」的階段。

IT之家註意到，人工智能領域著名批評人士 Gary Marcus 在今年 4 月寫道：「GPT-3 明顯優於 GPT-2，GPT-4（釋出於 13 個月前）也明顯強於 GPT-3。但之後呢？」

史葛所持的立場表明，像微軟這樣的科技巨頭仍然認為投資大型人工智能模型是合理的，他們押註於持續取得突破。考慮到微軟對 OpenAI 的投資以及大力行銷自家的人工智能協作工具「Microsoft Copilot」，該公司強烈希望維持人工智能領域持續進步的公眾認知，即使技術本身可能遇到瓶頸。

另一位人工智能領域知名批評人士 Ed Zitron 最近在其網誌上寫道，有些人支持繼續投資生成式人工智能的一個理由是，「OpenAI 掌握著我們不知道的某種技術，一項強大而神秘的技術，能夠徹底擊潰所有懷疑者的質疑。」他寫道，「但事實並非如此。」

公眾對大型語言模型能力提升放緩的認知，以及基準測試的結果，部份原因可能在於人工智能最近才進入公眾視野，而事實上，大型語言模型已經發展多年。OpenAI 在 2020 年釋出 GPT-3 之後的三年中一直持續研發大型語言模型，直到 2023 年釋出 GPT-4。許多人可能是在 2022 年底利用 GPT-3.5 開發的聊天機器人 ChatGPT 上線後才開始意識到類似 GPT-3 的模型的強大功能，因此在 2023 年 GPT-4 釋出時才會覺得能力提升巨大。

史葛在采訪中反駁了人工智能進步停滯的觀點，但他同時也承認，由於新模型往往需要數年才能開發，因此該領域的數據點更新的確較慢。盡管如此，史葛仍然對未來版本的改進充滿信心，尤其是在當前模型表現不佳的領域。

「下一個突破即將到來，我無法確切地預測它何時出現，也不知道它會取得多大的進步，但它幾乎肯定會改善目前那些不夠完善的方面，比如模型的成本過高或過於脆弱，讓人難以放心使用，」史葛在采訪中表示，「所有這些方面都會得到改善，成本會降低，模型會變得更加穩定。屆時，我們將能夠實作更加復雜的功能。這正是每一代大型語言模型透過規模化所取得的成就。」