「可以解決99%的使用場景！」微軟、輝達紛紛押註小模型，大模型不香了？

2024-08-23科技

在人工智能發展的道路上，科技巨頭們曾經競相開發規模龐大的語言模型，但如今出現了一種新趨勢：小型語言模型（SLM）正逐漸嶄露頭角，挑戰著過去「越大越好」的觀念。

當地時間8月21日，微軟和輝達相繼釋出了最新的小型語言模型——Phi-3.5-mini-instruct和Mistral-NeMo-Minitron 8B。這兩款模型的主要賣點是它們在計算資源使用和功能表現之間實作了良好的平衡。在某些方面，它們的效能甚至可以媲美大型模型。

人工智能初創公司Hugging Face的行政總裁Clem Delangue指出，高達99%的使用場景可以透過SLM來解決，並預測2024年將成為SLM之年。據不完全統計，包括Meta、微軟、谷歌在內的科技巨頭們今年已經釋出了九款小型模型。

大模型訓練成本攀升 效能提升卻有限

SLM的崛起並非偶然，而是與大模型（LLM）在效能提升與資源消耗方面的挑戰密切相關。

AI初創公司Vellum和Hugging Face今年四月份釋出的效能比較表明，LLM之間的效能差距正在迅速縮小，特別是在多項選擇題、推理和數學問題等特定任務中，頂級模型之間的差異極小。例如，在多項選擇題中，Claude 3 Opus、GPT-4和Gemini Ultra的得分均超過83%，而在推理任務中，Claude 3 Opus、GPT-4和Gemini 1.5 Pro的準確率均超過92%。

Uber AI 前負責人Gary Marcus指出，LLM的最新研究論文都指向同一個方向，十幾個LLM都與GPT-4在一個領域，「其中一些效能比GPT-4略好一些，但並沒有質的飛躍。我想每個人都會說GPT-4比GPT-3.5領先了一步，但此後的一年多沒有任何質的飛躍。」

與有限的效能提升相比，LLM的訓練成本卻在不斷攀升。訓練這些模型需要海量數據和數以億計甚至萬億個參數，導致了極高的資源消耗。訓練和執行LLM所需的計算能力和能源消耗令人咋舌，這使得小型組織或個人難以參與核心LLM開發。

國際能源署估計，數據中心、加密貨幣和人工智能相關的電力消耗到2026年，會大致相當於日本全國的用電量。

OpenAI行政總裁Sam Altman曾在麻省理工學院的一次活動上表示，訓練GPT-4的成本至少為1億美元，而Anthropic行政總裁Dario Amodei預測，未來訓練模型的成本可能達到1000億美元。

此外，使用LLM所需的工具和技術的復雜性也增加了開發人員的學習曲線。從訓練到部署，整個過程耗時漫長，減緩了開發速度。劍橋大學的一項研究顯示，公司可能需要90天或更長時間才能部署一個機器學習模型。

LLM的另一個重大問題是容易產生「幻覺」——即模型生成的輸出看似合理，但實際上並不正確。這是由於LLM的訓練方式是根據數據中的模式預測下一個最可能的單詞，而非真正理解資訊。因此，LLM可能會自信地生成虛假陳述、編造事實或以荒謬的方式組合不相關的概念。如何檢測和減少這些「幻覺」是開發可靠且可信賴語言模型的持續挑戰。

擴充套件參數並非提高效能的唯一路徑

對LLM巨大能源需求的擔憂，以及為企業提供更多樣化AI選項的市場機會，讓科技公司將註意力逐漸轉向了SLM。

【每日經濟新聞】記者註意到，不管是Arcee、Sakana AI和Hugging Face等AI初創公司，還是科技巨頭都在透過SLM和更經濟的方式吸引投資者和客戶。

此前，谷歌、Meta、OpenAI和Anthropic都釋出了比旗艦LLM更緊湊、更靈活的小型語言模型。這不僅降低了開發和部署的成本，也為商業客戶提供了更便宜的解決方案。鑒於投資者越來越擔心AI企業的高成本和不確定的回報，更多的科技公司可能會選擇這條道路。即便是微軟和輝達，如今也先後推出了自己的小型模型（SLM）。

SLM是LLM的精簡版本，具有更少的參數和更簡單的設計，它們需要更少的數據和訓練時間——只需幾分鐘或幾小時。這使得SLM更高效，更易於在小型器材上部署。例如，它們可以嵌入到手機中，而無需占用超算資源，從而降低成本，並顯著提升響應速度。

微軟在小型模型技術報告中指出，Phi-3.5-mini-instruct是一款為手機本地部署設計的高效能語言模型。

SLM的另一個主要優勢是其針對特定套用的專業化。SLM專註於特定任務或領域，這使它們在實際套用中更加高效。例如，在情緒分析、命名實體辨識或特定領域的問答中，SLM的表現往往優於通用模型。這種客製化使得企業能夠建立高效滿足其特定需求的模型。

SLM在特定領域內也不易出現「幻覺」，因為它們通常在更窄、更有針對性的數據集上訓練，這有助於模型學習與其任務最相關的模式和資訊。SLM的專註性降低了生成不相關、意外或不一致輸出的可能性。

盡管規模較小，SLM在某些方面的效能並不遜色於大模型。微軟最新推出的Phi-3.5-mini-instruct僅擁有38億個參數，但其效能優於Llama3.18B和Mistral 7B等參數遠高於它的模型。美國東北大學語言模型研究專家Aaron Mueller指出，擴充套件參數數量並非提高模型效能的唯一途徑，使用更高質素的數據訓練也可以產生類似效果。

OpenAI行政總裁Sam Altman在4月的一次活動中表示，他相信當前正處於巨型模型時代的末期，「我們將透過其他方式來提升它們的表現。」

不過，需要註意的是，雖然 SLM 的專業化是一大優勢，但也有局限性。這些模型可能在其特定訓練領域之外表現不佳，缺乏廣泛的知識庫，和 LLM相比無法生成廣泛主題的相關內容。這一限制要求組織可能部署多個 SLM 來覆蓋不同的需求領域，這可能會使 AI 基礎設施復混成。

隨著AI領域的快速發展，小型模型的標準可能會不斷變化。東京小型模型初創公司Sakana的聯合創始人兼行政總裁David Ha表示，幾年前看似龐大的AI模型，現在看來已經顯得「適中」。「大小總是相對的，」David Ha說道。

編輯 | 孫誌成高涵杜恒峰

校對| 趙慶

｜每日經濟新聞 nbdnews 原創文章｜

未經特許禁止轉載、摘編、復制及映像等使用