「AI源神」的AB面：小參數大模型也能「反思」，但只是有限開源

2024-05-08科技

經濟觀察網記者錢玉娟距離Llama 3模型釋出已經過去兩個多星期，但全球開發者對這個號稱「開源之王」「AI源神」的開源大模型，仍然熱情不減。

截至5月8日發稿前，這個美國社交巨頭Meta旗下的開源大模型，在全球程式碼托管服務平台GitHub上的星標（Stars）數值已接近19600，並且該數據還在持續增長。星標是大模型專案在GitHub上的使用者收藏規模，可以反映全球開發者對該模型的關註度。

開發者對Llama 3模型的追捧，不僅在於Meta宣稱它是目前市場內相同體量下效能最好的開源大模型，還因為Meta提供了有力的支撐條件——Llama 3模型的兩個版本都是在含24000個輝達顯卡（GPU）的算力集群上訓練的，使用了15萬億個（15T）Token（文本中的最小單位）組成的高質素預訓練數據集。

陳天楚在浙江大學電腦系統結構實驗室從事大模型相關研究工作。他在對Llama 3模型調優的過程中發現，這個由強大算力、優質且海量數據支撐的開源大模型，確實給那些沒有足夠算力的企業或個人使用者，「開啟了一個開放體驗的視窗」。

不過，陳天楚也表示，考慮到Llama 3模型對某些領域的使用特許和對數據輸出再訓練的限制，它並非一個完全意義上的開源大模型。

Llama 3究竟強大在哪？

4月18日，Meta釋出Llama 3模型，並對開發者開放80億（8B）和700億（70B）兩個參數規模的版本——Llama 3 8B模型和Llama 3 70B模型。當天恰好是AI行業學者吳恩達的生日。作為AI開源的倡導者，吳恩達感慨「（Llama 3模型是）至今為止最好的禮物」，並向Meta表示感謝。

在釋出幾小時後，Llama 3模型便在AI程式碼社區Hugging Face的模型排行榜單上史無前例地「霸榜」了。此後，輝達高級科學家Jim Fan更是發出預言：「Meta 即將推出的Llama 3 400B將成為一個分水嶺。即社區將獲得開源重量級的GPT-4模型。」

Meta一直強調創新、擴充套件和最佳化的重要性，但它在開發Llama 3模型時，並未對上一代模型Llama 2的架構和底層演算法做出太大的調整。兩代模型間的變量更為集中地體現在數據工程上。

Llama 3模型使用的預訓練數據集超過15萬億個Token，比Llama2使用的數據集大7倍，包含的程式碼量也多了4倍，這反映出Meta在開發該模型的過程中投入了豐富資源。此前Meta也表示：「數據的增多，幫助（Llama 3）模型更好地辨識差異和模式。」

Llama 3 8B模型是Llama 3的小參數版本。陳天楚稱，國內外目前開源的大多數8B體量模型，一般使用2000億個（0.2T）Token的數據集就能滿足訓練需要，而Meta為訓練Llama 3模型擴充的語料出人意料。

除此之外，Llama 3模型使用的算力卡更令人驚嘆，它是在含24000個輝達GPU的算力集群上訓練的。超大規模的算力集群會帶來網絡通訊最佳化、電力基礎設施構建等工程上的挑戰。陳天楚說，不論在開源還是在閉源社區，鮮見用如此多資源去訓練一個小參數大模型的案例。

因此，Llama 3模型一經釋出，便吸引了眾多大模型玩家對它進行測試、微調等重訓工作。開源模型社區開源智友（OpenBuddy）就是其中之一，它由陳天楚擔任模型訓練負責人。

Meta在官方網誌上表示，Llama 3模型只針對英語輸出進行了微調，主要提供英語方面的對話能力。而在Llama 3面市3天後，OpenBuddy團隊就在匯集AI開發者的魔搭社區內，釋出了一個支持中文的Llama 3 8B模型最佳化版本——OpenBuddy-Llama3-8B模型。陳天楚說：「我們主要最佳化了它的跨語言理解能力，讓它在中文方面具備更強的穩定性和認知能力。」

陳天楚透露，一位魔搭社區使用者向OpenBuddy團隊反饋，OpenBuddy-Llama3-8B模型對一些中國傳統文化或小眾的中文知識點掌握得不夠精確，但它比同體量的開源模型具有更大的潛力。該使用者還認為，它對中文的認知理解能力，已接近大參數中文原生大模型。

一般情況下，體量在70B左右的大參數大模型才具有反思、糾錯能力。但據陳天楚觀察，OpenBuddy-Llama3-8B模型「既可以對自己說過的話有認知，意識到錯了，還能在承認錯誤後有一個反思的過程，重新更正一個答案」。

小參數大模型多被認為適合處理簡單的日常事務。可Llama 3 8B及其衍生模型表現出了更深層的反思和糾錯機制，讓開源社區的使用者們意識到，復雜認知不再是大參數大模型的專利。陳天楚據此預判，在某些預算有限的垂直行業領域中套用Llama 3 8B模型，或將存在更多的可能性。

有限開源的「開源之王」

Llama 3模型強大且開源的特性，更讓開發者對它冠以「開源之王」「AI源神」的稱號，但陳天楚對此有不同看法。

OpenBuddy團隊一直致力於為開源社區提供強認知智能的中文開源模型。他們在一個新的開源大模型釋出後，往往會第一時間檢視該模型的特許（License），看它是不是有被限制的使用方法。陳天楚說，如果它只能用在某一特定的語言，或者它不能商用，「這意味著我們基於這種開源基座（調優）的衍生結果，也可能會受到同樣的限制」。

而OpenBuddy團隊發現，Llama 3模型實際上限制了某些領域的使用特許，經由它輸出的數據並不能用於訓練其他模型。

陳天楚註意到，對於要進行模型套用開發的企業而言，Llama 3模型的掣肘問題並非語言，而是它並不支持使用者規模巨大的企業商用。「包含關聯公司在內，7億月活以上的廠商都是不可行的。」

陳天楚還十分關心大模型的訓練數據來源和數據去向。但OpenBuddy團隊在對Llama 3模型調優的過程中發現，包括Meta在內的很多開源廠商，都不太願意把數據來源或數據比例進行公布。陳天楚稱，這可能是因為他們會用到一些有版權的數據進行訓練。

基於上述限制因素，陳天楚從開源社區的嚴格定義上分析，Llama 3不完全是一個開源大模型。「它還是一個有所保留的開放模型，（我們）不能真正定義它為一個開源的作品。」

對於Llama 3模型的有限開源，雲從科技研究院產品總監孫進認為，開源的版本一定不是大模型最好的版本。「如果有平替GPT-4（美國AI公司OpenAI研發的大模型）的模型，即使（它）開源，也會是閹割之後（的）再開源。」

去年至今，國內外不少廠商將旗下的大模型開源。但孫進與一些行業客戶交流下來發現：「他們都經歷了（對開源模型）從入門到放棄的過程，現在來找我們直接采購大模型演算法。」

孫進的團隊也曾接到一些地方政府的需求，「給一些補貼，（讓）我們開源大模型技術」。但他們至今沒有實際推進此事。在孫進看來，如果一家廠商選擇開源大模型，需要配套的算力營運生態來支撐盈利模式，只有雲端運算、算力硬件、初創AI企業才有開源大模型的動力。

陳天楚理解廠商對開源大模型商業模式的關註，但他並不建議所有廠商從零開始訓練大模型。「追蹤開源社區的最新成果，可能也是一條值得考慮的路線。」

從Llama 3模型的開放模式看，陳天楚認為，該模型為開源社區開啟了一個視窗——它不僅令開發者認識到，使用巨量的算力和數據集能夠讓大模型達到怎樣的結果，也為很多沒有足夠算力的企業或個人使用者提供了體驗大模型能力的機會。

陳天楚說，Meta為了訓練Llama 3 8B模型，投入了百萬小時的p00（一款輝達GPU）算力，這是任何一家初創企業承受不起的。考慮到該模型實作了不錯的訓練效果，他判斷，在未來很長一段時間內，特別是在英語環境下，基於Llama 3模型的進一步最佳化、開發，會成為一些初創企業在商業上頗有意義的選項。