當前位置: 華文世界 > 科技

Meta開源Llama 3.1 405B,強調開源才是AI的未來

2024-07-26科技

Meta周二(7/23)開源了Llama 3.1 405B,它具備4,050億個參數,脈絡長度達12.8萬個Token,支持8種語言,這是Meta迄今所開發的最大模型,也號稱是全球第一個達頂尖水準的開源模型,也是全球最大也最有能力的公開基礎模型。Meta創辦人暨行政總裁朱克伯格(Mark Zuckerberg)還特別撰文強調開源AI的重要性,認為開源才是AI的未來。

有別於在Llama 3時,Meta僅釋出了Llama 3 8B、Llama 3 8B Instruct、Llama 3 70B與Llama 3 70B Instruct,進展到Llama 3.1時,Meta釋出了Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B與Llama 3.1 70B Instruct,以及擁有4,050億個參數的兩個大模型Llama 3.1 405B與Llama 3.1 405B Instruct。此外,相較於Llama 3最初只支持8,000個Token的脈絡長度,Llama 3.1一下就支持12.8萬個Token。目前開發者已可透過llama.meta.com及Hugging Face下載Llama 3.1的各種模型。

身為Meta迄今開發的最大模型,Llama 3.1 405B是在超過15兆個Token上進行訓練,為了要在合理的時間內獲得結果,Meta最佳化了整個訓練堆疊,使用了超過1.6萬個p00 GPU。

既然標榜為具備頂尖實力的開源模型,Meta用來比較Llama 3.1 405B的物件就是現在市場上最頂級的GPT-4、GPT-4o與Claude 3.5 Sonnet等封閉模型,以及Nvidia於日前開源的Nemotron-4 340B,而且使用超過150個涵蓋不同語言的基準數據集進行測試。

圖片來源/Meta

結果顯示Llama 3.1 405B在通用的IFEval、數學上的GSM8K、推論的ARC Challenge、工具使用的Nexus、長脈絡的ZeroSCROLLS/QuALITY及InfiniteBench/En.MC及多語言的Multilingual MGSM基準測試上,超越上述所有模型。

Meta也比較了Llama 3.1 8B、Gemma 2 9B IT與Mistral 7B Instruct,以及Llama 3.1 70B、Mixtral 8x22B Instruct與GPT 3.5 Tubo,發現不管是Llama 3.1 8B及Llama 3.1 70B,在許多基準測試上都超越競爭模型。

圖片來源/Meta

而在人類專家的評估中,Llama 3.1 405B與GPT-4-0125、Claude 3.5 Sonnet的表現不相上下,但明顯不及GPT-4o。

圖片來源/Meta

朱克伯格:開源才是AI的未來

朱克伯格認為,AI應該以Unix及Linux的發展作為借鑒。Unix作業系統的封閉政策讓基於Unix的開源Linux興起,盡管Unix如今仍在某些專業領域或高效能環境中保持重要地位,但開源的Linux卻開枝散葉,帶來多樣的發行版本,現在不僅已成為全球伺服器的主作業系統,也與時俱進地支持雲端運算與虛擬化技術,並成為嵌入式系統及物聯網器材的首選平台。

朱克伯格相信AI也會以類似的方式發展。指出雖然目前有幾家企業開發了領先的封閉模型,但開源模型正在迅速縮小差距。去年的Llama 2僅能與尖端模型的舊版相提並論,今年的Llama 3便能與最新的尖端模型競爭,自明年開始,未來的Llama將成為企業最先進的模型,而在實作該目標之前,Llama已經在開放性、變更能力及成本效益上領先群倫。

相較於封閉性模型,Llama 3.1家族除了具備更好的成本與效能之外,Llama 3.1 405B模型的開放性,也讓它成為微調及蒸餾出小模型的最好選擇。

Meta的終極目標是讓Llama如同Linux一樣成為業界標準,因此已與多家企業合作以發展更完善的生態體系,包括Amazon、Databricks、Nvidia與Groq。Databricks已支持開發人員微調及蒸餾自己的模型,Groq則替所有新模型提供低延遲與低成本的推論服務,而各種雲端運算服務已準備要協助企業采用Llama並使用自家數據訓練自訂模型。

開源模型的好處之一是讓企業得以根據需求、利用自家敏感數據來構建模型,而不受封閉模型供應商的箝制,其次則是在自家基礎設施上以Llama 3.1 405B進行推論,成本只有使用GPT-4o等封閉模型的50%。

朱克伯格強調,出售AI模型的存取權並非Meta的商業模式,因此,將Llama開源不會削弱Meta的營收、可持續性或投資研究的能力,他也相信開源將讓AI模型變得更安全,在應對中國威脅時,相較於封閉所帶來的限制,最好的策略是建立一個強大的開放生態體系,並讓領先企業與政府及盟友密切合作,以確保可利用最新的進步,實作長期且可持續的先發優勢。