當前位置: 華文世界 > 科技

Llama 3.1震撼釋出,真正的全民GPT-4時代來了

2024-07-24科技

智東西7月24日報道,昨夜,Meta宣布推出迄今為止最強大的開源模型—— Llama 3.1 405B ,同時釋出了全新升級的Llama 3.1 70B和8B模型。

Llama 3.1 405B支持上下文長度為 128K Tokens ,在基於 15萬億個Tokens 超1.6萬個p00 GPU 上進行訓練,這也是Meta有史以來第一個以這種規模進行訓練的Llama模型。

研究人員基於超150個基準測試集的評測結果顯示, Llama 3.1 405B可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等業界頭部模型媲美

除了效能強勁外,Meta創始人兼CEO馬克·朱克伯格還親自發文助陣,他稱,除了比閉源模型成本和效能更優, 405B開源模型將成為企業微調和訓練較小模型的最佳選擇

Meta AI宣布接入Llama 3.1 405B,並推出AI圖片編輯、AI編程、VR/AR器材智能助手等新功能。朱克伯格預測, Meta AI助手使用率幾個月後將超越ChatGPT

Meta的開源生態圈也已準備就緒。Meta與 超過25個合作夥伴 將提供Llama 3.1模型,包括亞馬遜AWS、輝達、Databricks、Groq、戴爾、微軟Azure和谷歌雲等。

迄今為止,所有Llama模型版本的總下載量已經超過 3億次 ,與主流閉源模型能力相當的Llama 3.1模型釋出或許意味著,Meta要講的開源模型故事剛剛開始……

模型下載連結:

https://llama.meta.com/

https://huggingface.co/meta-llama

論文連結:

https://t.co/IZqC6DJkaq

▲Meta Llama 3.1模型論文解讀摘要

01.405B開源模型對標GPT-4o,25家合作夥伴已就緒

Meta評估了超150個基準數據集的效能, Llama 3.1 405B 在常識、可操作性、數學、工具使用和多語言轉譯等一系列任務中,可與 GPT-4o、Claude 3.5 Sonnet和Gemini Ultra 相媲美。

在現實場景中,Llama 3.1 405B進行了與人工評估的比較,其 總體表現優於GPT-4o和Claude 3.5 Sonnet

升級後的 Llama 3.1 8B和70B 模型,相比於同樣參數大小的模型效能表現也更好,這些較小參數的模型支持相同的128K Tokens上下文視窗、多語言、改進的推理和最先進的工具使用,以支持實作更高級套用。

Meta更新了特許證,允許開發人員首次使用包括405B參數規模的Llama模型的輸出來改進其他模型。

同時,Meta的開源生態進一步擴張,已經有超過25個企業推出了Llama 3.1新模型。

其中, 亞馬遜雲科技、Databricks和輝達 正在推出全套服務,以支持開發人員微調和訓練自己的模型。AI芯片創企Groq等為Meta此次釋出的所有新模型構建了低延遲、低成本的推理服務。

同時這些模型將在 亞馬遜雲科技、微軟Azure、谷歌雲、Oracle 等主要雲平台上提供服務。

Scale AI、戴爾、德勤 等公司已準備好幫助企業采用Llama模型並使用自己的數據訓練客製模型。

Llama 3.1 405B不僅是最強開源模型,還有望成為最強模型,開源和閉源的距離再次大大縮短。

02.完整最佳化訓練堆疊,專註於讓模型可延伸

為了能基於15萬億個Tokens進行模型訓練,同時在合理時間內實作研究人員想要的效果,Meta對訓練堆疊進行了完整最佳化。

在解決上述難題方面,Meta選擇專註於保持模型開發過程可延伸並更直接的策略:

1、研究人員選擇了 標準僅解碼器的Transformer模型架構 進行小幅調整,而不是采用MoE混合專家模型,可以最大限度提高訓練穩定性。

2、研究人員采用了 叠代的後訓練程式 ,每輪都使用監督微調和直接偏好最佳化。這使模型能夠為每一輪建立最高質素的合成數據,並提高每項能力的效能。

與此前Llama系列模型相比,Meta改進了用於訓練前和訓練後的數據的數量和質素。這些改進包括 為訓練前數據開發更仔細的預處理和管理pipelines、開發更嚴格的質素保證,以及訓練後數據的過濾方法

正如大語言模型的Scaling Laws(規模定律)所預期的那樣,Meta新旗艦模型優於使用相同策略訓練的較小模型。Meta還使用405B參數的模型提高了其較小模型的訓練質素。

同時,為了支持405B參數模型的大規模推理,研究人員將模型從BF16到FP8進行了量化,有效降低了所需的計算要求,並允許模型在單個伺服器節點內執行。

在指令和聊天微調方面,研究人員透過在預訓練模型之上進行幾輪對齊以生成最終模型,每一輪都涉及監督微調(SFT)、拒絕采樣(RS)和直接偏好最佳化(DPO),其使用合成數據生成來生成絕大多數SFT範例以生成所有功能中更高質素的合成數據。

此外,Meta采取了多種數據處理技術以將這些合成數據過濾到最高質素,這使新模型能夠跨功能擴充套件微調數據量。

在數據方面,研究人員還對數據進行了仔細平衡以生成具有所有功能的高質素模型。例如,在短上下文基準上保證模型質素,使其能擴充套件到128K上下文長度。

此外,Meta還宣布推出一個整體的 Llama系統 。該系統除了涵蓋Llama模型,還涉及多個元件協調及外部工具呼叫,以此助開發者開發比基礎模型更強的客製產品。

Llama系統將涵蓋一系列新元件,包括開源新的 安全工具 如Llama Guard 3(多語言安全模型)和Prompt Guard(即時註入過濾器)。為了讓分散的元件聯接起來,Meta還釋出了對Llama Stack API的評論請求,這是一個標準介面,以此第三方專案更輕松地利用Llama模型。

對於普通開發者來說,使用405B規模的模型仍是一項挑戰,這需要大量的計算資源和專業知識。

基於Llama系統,生成式AI開發不僅僅是提示模型,每個人都應該可以利用405B模型完成更多的任務,包括即時和批次推理、監督微調、針對特定套用評估模型、持續預訓練、檢索增強生成(RAG)、函數呼叫、合成數據生成等。

這是Meta迄今為止推出的最大模型,未來將推出更多器材友好的尺寸、更多模式以及在Agent層面的更新。

03.405B大模型爆改Meta AI,Quest智能語音助手升級

現在,Meta旗下的多個終端,比如 WhatsApp和Meta AI聊天機器人 中都開始使用Llama 3.1 405B。

Meta AI目前已支持七種新語言,本次Meta推出一批新的Meta AI創意工具,主要聚焦視覺生成、數學和編碼等領域。

首先看看視覺生成,Meta AI推出 「想象我(Imagine Me)」影像生成提示功能 ,支持使用者在Meta AI聊天中輸入「想象我」並添加提示,例如「想象我是皇室成員」或「想象我在一幅超現實主義繪畫中」,就可以生成影像並與朋友和家人分享。

Meta AI將上線 「使用AI編輯(Edit With AI)」 功能,使用者可以透過點選滑鼠輕松添加或刪除物件,或更改和編輯它們 ,並保持影像的其余部份不變,比如將「將貓改為柯基犬」。Meta AI還將支持將新制作的圖片添加到Facebook貼文中,以及Instagram、Messenger和WhatsApp等社交平台上。

在數學和編程方面,使用者可以透過分步解釋和反饋獲得數學作業方面的幫助,透過偵錯支持和最佳化建議更快地編寫程式碼,並透過專家指導掌握復雜的技術和科學概念。

使用者可以結合Meta AI的編碼專業知識和影像生成功能,從頭開始構建新遊戲或對經典遊戲進行全新演繹。只需幾分鐘即可將奇思妙想變成現實,甚至讓使用者直接預覽遊戲。

值得一提的是,Meta AI也適用於 雷朋Meta智能眼鏡 ,並將於下個月在美國和加拿大的Meta Quest上以實驗模式推出。Meta AI將取代Quest上當前的語音命令,讓使用者可以免提控制耳機、獲取問題的答案、隨時了解即時資訊、檢視天氣等。

使用者還可以將Meta AI與在頭顯中看到的檢視結合使用,比如詢問其在物理環境中看到的事物相關情況。

04.朱克伯格公開信:開源對開發者、Meta、世界都更有利

Llama 3.1系列剛釋出,朱克伯格的長篇公開信同時上線官網,使得開閉源模型之間的火藥味更濃了。

▲朱克伯格公開信部份截圖

一開始,朱克伯格就提到開源模型與閉源模型之間的差距正在逐漸縮小。去年,Llama 2僅與上一代最先進的閉源模型相當。今年,Llama 3可與最先進的模型媲美,並在一些能力上處於領先地位。

從明年開始,他預計Llama模型將成為業內最先進的模型 。並且當下Llama系列模型已經在開放性、可修改性和成本效益方面處於領先地位。

在網誌中,他回答了為什麽開源AI對開發者有利、為什麽開源AI對Meta有利、為什麽開源AI對世界有利這三大問題。

首先,為什麽開源AI對開發者有利?

他認為開發者需要訓練、微調自己的模型,以滿足各自的特定需求;開發者需要掌控自己的命運,而不是被一家封閉的供應商所束縛;開發者需要保護自己的數據;開發者需要高效且執行成本低廉的模型;開發者希望投資於將成為長期標準的生態系。

開源AI對Meta的好處在於,Meta的商業模式是為人們打造最佳體驗和服務,要做到這一點,他認為必須確保其始終能夠使用最佳技術,並且不會陷入競爭對手的封閉生態系。

同時,開源AI會促使Meta將Llama發展為一個完整的生態系,並有成為行業標準的潛力。

他還提到,Meta與閉源模型玩家之間的關鍵區別之一是,出售AI模型存取許可權不是Meta的商業模式,這意味著開源不會削減其收入、可持續性發展或繼續投資研究的能力。

最後就是Meta擁有悠久的開源專案和成功歷史。

關於開源AI模型安全性的爭論,朱克伯格的觀點是 開源AI將比其他選擇更安全 。他認為開源將確保全世界更多的人能夠享受AI帶來的好處和機會,權力不會集中在少數公司手中,並且該技術可以更均勻、更安全地套用於整個社會。

05.結語:Meta再度落子,大模型開閉源之爭生變

開閉源大模型之爭仍在繼續……

從Meta Llama 3.1系列模型的釋出,可以看出開閉源大模型之間的差距正在縮小,且大有齊頭並進、互相趕超之勢。作為開源大模型陣營的忠實擁躉者,同時也是技術創新的先鋒,Meta從Llama系列模型釋出之初,就堅定要打造自己的開源生態圈。同時,相比於此前的Llama模型,此次新模型釋出Meta還將在內部組建團隊,讓盡可能多的開發人員和合作夥伴使用Llama系列。

Meta再度落子,使得開閉源模型之爭的定論更加撲朔迷離。但歸根結底,在實際套用中,很多企業和開發者會根據具體需求和情況選擇使用開源或閉源模型,因此模型的具體能力、適用的真實場景等,還需要時間來證明。