當前位置: 華文世界 > 科技

Llama3.1根本賣不動!業內人士:開源模型成本反而更高

2024-08-28科技

Meta的Llama 3免費模型在市場上降溫,這進一步加劇了主模型的問題,開源與閉源的爭論引起了很多人的關註。

據外媒 The Information 報道,開源模型 Meta Llama 3 很難吸引全球最大雲廠商亞馬遜 AWS 的關註。 AWS 企業客戶喜歡使用 Claude Anthropic 的出色模型。

據微軟內部人士透露,Llama並不是微軟行銷的首選。他們更喜歡將 Llama 外包給擁有數據專業知識的公司,例如擁有內部工程師和數據科學家的公司。

Meta現在面臨著挑戰,這可能會促使Meta建立一個AI產品的銷售團隊來滿足業務需求。這一系列問題也凸顯了大型開源模型商業化過程中的困難。從市場選擇的角度來看,開源模式的實際效果和商業回報可能達不到企業客戶的期望。

面對「開源還是閉源」的問題,國內主要模型廠商基於各自的技術方向和策略,建立了完全不同的立場。那麽,企業應該如何選擇主力模式,又如何在兩者之間找到最佳平衡點呢?

在此背景下,百度智能雲AI與大模型平台總經理周鑫接受了媒體采訪,並在公開論壇上詳細探討了基本邏輯、業務策略和未來市場預測。彈簧和閉式彈簧。

周鑫認為,主模型開源和軟件開源有很大區別——開源模型不開放訓練原始碼等影響模型效果的基礎資訊、預訓練和微調數據,因此它們不會是開源軟件。 ,依靠社區開發者的參與來提高生產力和效率,而底層模型的訓練則掌握在開發者手中。

在談到「開源模式和封閉模式哪個更貴?」時,周鑫表示,開源模式是免費的,價格低廉,但實施起來卻很大。沒有單一的技術;一個完整的「技術+服務」解決方案,企業必須算好「總賬」。當業務實際落地時,開源模式想要達到與封閉模式相同的效果,需要大量的人員、金錢和時間投入,成本總體會更高。

開源和閉源模型各有什麽優勢?周鑫認為,開源模式更適合學術研究,但不適合對外提供服務的大型商業專案。在一些投資數百萬甚至數千萬的嚴肅專案中,閉源模式仍然是主角。

「開源模型並不容易」

以下是經過編輯的采訪全文:

1。在龐大的模型市場中,各個模型廠商的角色是什麽?商業模式是什麽?

周鑫:在這個模式大聚會中,每個廠商的定位和商業模式都不同,可以分為三類:

第一類角色,對於雲廠商來說,商業模式其實,我們仍然出售計算資源。它透過盈利水平降低成本並提高資源彈性。這就是雲廠商的可持續發展模式。不管是開源模式還是封閉模式,如果由雲廠商托管,雲廠商都能賺錢。

第二種角色類別既是雲供應商又是模型供應商。他們希望透過模型的使用,把業務帶到雲端。目前,單純依靠模型API呼叫的好處還很低。他們目前希望占據不錯的市場份額,並繼續在主力車型表中尋找新的擴張機會。

第三種責任,對於營運模式廠商來說,各大雲廠商宣布降低模型價格後,其吸重力大打折扣。大模型領域很快就會變成各大雲廠商之間的爭奪戰。大型模式初創公司會專註於特定行業,專註於toB專案,或者轉型為toC產品。

2。為什麽說「開源模式不易,技術永遠會落後」?

周鑫:首先我們來說說技術落後的問題。

首先,主模型的開源並不能提升模型的效果。

相比於開源軟件,如Android手機作業系統、MySQL數據庫軟件,這些開源軟件的原始碼是開放的,開發者可以參與各個社團的程式碼開發。這不僅降低了軟件開發成本,還加快了軟件開發速度,提高了軟件安全性。這就是開源軟件的價值。

開源模式比較復雜。可能包括開源的模型訓練原始碼、參數權重、訓練數據等。然而,目前模型開發者通常只看重開原始碼、訓練原始碼、訓練數據等。不是開源的。這使得開發人員無法改進它並為開源模型的成功做出貢獻。

例如,對於 Llama 來說,模型效能的任何改進都是 Meta 本身訓練的結果,而不是開發人員輸入的結果。 Llama2和Llama3在網絡配置方面差別不大。它最佳化了什麽?一方面,訓練過程的階段是結構化的,比如分幾個階段進行訓練;另一方面,還有很多數據需要補充。 Llama2 和 Llama3 數據存在數量級差異。更多的數據和訓練時間可以帶來更好的模型結果。

但這些好的成績都是Meta完成的,沒有辦法動用開發者的全部力量,更沒有辦法像開源軟件那樣有社區反饋流程。

其次,開源模式永遠會落後,因為沒有好的商業模式來保證模式可以復制。

模型訓練和數據註釋非常昂貴。如果沒有像Meta這樣強大的資源來支撐開源模式的長期發展,如果是一個開源模式的初創公司,就無法打造出一個封閉的公司。與此同時,開發人員無法為你的模型的成功做出貢獻,因此初創公司必須在他們做出貢獻時繼續抵制。從結果來看,最好的模型是Open AI,當前評估列表中排名靠前的模型都是封閉模型。

我們來談談為什麽開源模型不容易。主要模式套用是「技術+服務」的完整解決方案。實施大規模模型的公司需要「計算總賬」。總賬是如何計算的?

第一級包括計算器材成本。因為閉源的營運模式會配備相應的工具鏈,包括訓練工具鏈和推理工具鏈,這些工具鏈的執行力比開源的要好。對於客戶來說,培訓可以節省10~20%的器材成本。 ,想想就省得越多,而且生意越大,省得越多。

第二個層次是看模型的商業效益。對於具有相同參數的模型,閉源的輸出更好。有些客戶對 90% 或 95% 的準確度不太敏感。但也有一些業務,比如商業廣告,CPM和CTR只是其中的一個點。對於一個廣告平台來說,一天之內可能會出現數千萬的差異。如今,需要更高模型輸出的公司願意去購買效果更好的閉源模型。

第三個層次包括機會成本和勞動力成本。如果您使用閉源業務模型來更快地整合,您可以比競爭對手更快地推出新產品。在封閉的商業模式中,制造商已將模式和器材調整到最佳狀態,客戶可以模仿認真的體驗。但如果使用開源,就得自己去適配,計算和工程成本會更高。

所以我們說業務套用模型需要「計算總賬」,計算出來的總賬會完全不一樣。

3。為什麽開源在硬件成本上比閉源貴?周鑫:大多數企業客戶會購買兩台或更多器材,因為他們要考慮供應鏈的安全性和靈活性。如果開源模型需要適配每一個器材,成本會非常高。高的。

這代表了封閉式商業模式的優勢,因為它可以透過批發來分擔軟件和硬件適配的成本。另外,多核相容是一個非常技術性的問題。百度異構計算平台針對異構計算做了很多改進,可以適配多種器材。白鴿本身可以保護硬件層的各種差異。有很多加速庫、推理庫、訓練庫。白鴿還提供了主要文心模型的最新改進。

對客戶來說的好處是無論使用什麽器材都可以快速執行,時間和人工成本非常高。

4。開源和閉源模型可能的場景有哪些?

周鑫:總體思路是:如果你想在各個業務領域進行嘗試和驗證,可以先以封閉模式執行,可以開箱即用,快速驗證;在一些耗資數百萬、上千萬的專案、元級別的嚴肅商業專案、以及對規模和精度要求較高的公司中,封閉式商業模式仍然是公司的最佳選擇。在某些沒有高影響和效能要求,但需要特定且非常敏感的安裝的業務情況下,請考慮使用開源模型。

開源對於促進學術和研究具有價值,例如提高推理工程的效率、預訓練數據和微調對結果的影響等。如果能夠開放更多的資源,比如訓練程式碼的同時也開放訓練數據、教學微調數據等,這會給學術研究和技術發展帶來更多的價值。雖然模型的價值是開放的,但它為研究人員提供了一個很好的基礎模型。

5。一些廠商希望開源和閉源能夠並舉。即開源模式吸引使用者拓展環境,閉源模式負責銷售。這個邏輯行得通嗎?

心舟:如果你還沒有嘗試過,那看來是有可能的。但現實是:

在公有雲中,各個廠商公布的呼叫量中,封閉模型的呼叫量要高於開源模型,這說明開源模型確實如此。公有雲環境對使用者擴充套件吸重力不大。結果。另外,對於公有雲的微調,可以套用開源或者開源的模型,所以客戶會直接選擇公有雲的最佳模型。

對於獨立安裝來說,這個邏輯有一定的道理。許多公司開始使用開源模型進行測試。後來他們看到這個產品不錯,就想買。他們會選擇開源模型來匹配制造商的閉源模型,因為只有這種源模型更適合推文。在這種情況下,這個邏輯是正確的。 。不過,這個值正在逐漸下降。隨著每個制造商的模型的能力迅速增強,操縱成本不斷降低,慢慢地消除了該模型的遺留問題。

也有廠商釋出開源模型來推廣該器材。例如,NVIDIA釋出了一個開源模型。業務邏輯很簡單,需要購買卡才能使用該模型。

6。百度為什麽不釋出開源模型?

周鑫:從各廠商的分布量可以看出,部署量最大的封閉商業模式是公有雲,而開源模式則對公眾影響不大。雲。

在私募市場,隨著客戶對主要模式的不斷了解,開源和閉源已經不再是主要的了。在與許多大型企業客戶互動後,我發現有很多因素決定企業領導者是否應該使用模型。優先順序通常是:生產力、效能、安全性和價格。該模型是開源還是閉源並不重要。

7。您說企業在選擇模式時最看重的是影響力、效率、安全性和成本。百度雲推出的「千帆大模一體機」是在嘗試一種軟硬件融合的新商業模式嗎?

周鑫:目前公司大型模型的使用還處於研究階段,需要低成本、無盒的產品來快速驗證情況和效果。在主模型中。 「千帆大型號一體機」非常適合現在的工藝,因為國內有很多私人安裝的需求。一機開放,適配多種器材,包括市場上所有常見產品。芯片和模型。百度智能雲的所有主要型號千帆機都提供兩個能力:

第一,提供軟硬件同步的整合平台。該平台擁有文信大模型以及面向行業使用和場景套用的大型開放模型樣板間。 。流行的開源模型也得到了修改和改進。使用者可以直接在整機上執行,無需調整模型。同時,千帆主力模型一體機可提供從基礎管控、AI系統、模型訓練、預測推理、場景實作等大模型軟硬件解決方案,為客戶提供完整的軟硬件服務。

其次,大千帆機一體機型號由於端到端的最佳化以及能夠壓下所有的顯示器材,所以價格非常昂貴。客戶可以更快地以更便宜的價格使用它。

總體價格來說,千帆一體機的價格遠低於購買伺服器、主機型號和獨立平台,並且可以開箱即用。

8。如今,很多人覺得用大的基本款還不夠。我們還需要構建產業模型,實作主要模型真正的產業套用。如今,一家公司訓練工業模型要花多少錢?

忻州:物價很高。首先,這個價格根據要訓練的模型參數的大小逐漸增加。其次,取決於數據庫的大小。最後,還有上傳數據的費用。

如果你想從頭開始訓練一個70b的模型,你可能需要3000萬雲彈性資源。如果你想訓練更多數量的模型,成本可能是數億。這應該由有經驗的人進行培訓。如果沒有經驗,過程中出現偏差,價格會更高。

9。成本如此之高,企業如何判斷是否需要打造產業模式?

周鑫:任何情況下我們都不建議客戶從頭開始構建行業核心模型。無論有什麽好處,成本都一定很高。我們將幫助客戶首先考慮他們的需求。

例如,制作一個座標系。橫座標是工作的敏感度,縱座標是行業數據的需求。所謂崗位敏感性,是指該行業與工業、商業的相關性是否強。比如在醫學領域,這些都是非常專業的問題。縱軸是工業數據的需求。行業越封閉,公共網絡中的數據越少,就越需要高級的培訓。例如,在醫學領域,沒有意義的病歷資訊需要在模型上進行預訓練。

透過分析,在這個座標軸上,左下角沒有行業特征或者行業數據,所以可以直接使用通用模型,但是右上角對於這個行業的業務性質比較敏感,需要很多產業。 。數據,現在你需要做一個工業模型。

我們通常建議企業采取三個步驟。

第一步是檢查值。預構建建模軟件和硬件基礎設施並構建大型工業模型。結合相當成熟的生成式AI套用,很快就能看到結果。比如,透過千帆主模型平台的輕量化版本,增加了智能客服、企業知識管理、數碼人等嚴肅的套用。

第二步,深度連線企業的各種套用。大模型基礎設施完善升級為千帆大模型終極版。除了與主模型相關的培訓和器材外,還有一個用於構建應用程式的平台。百度及其全球合作夥伴深度參與公司內部廣泛模型的培訓和營運,構建技術環境,培訓相關人才,與企業共同解決復雜的業務問題,為業務增加更多價值。

第三步是徹底翻新和獨立檢查。公司掌握了大規模建模和套用開發相關技術,也擁有相應的人才,可以進一步提高自主可控開發水平,啟動全面創新。百度將作為長期的技術支持和顧問,幫助公司開發並持續為公司帶來新技術和解決方案。

10。您如何判斷明年主力車型市場?

周鑫:我對未來一年的發展趨勢有三個判斷:

第一,多式聯運將成為市場新熱點。

其次,基於主模式的套用將會出現大爆發,主攻方向是Agent。如果只有一個主模型執行「輸入和輸出」中指定的動作,則會限制其價值。它應該更像人類,能夠使用工具、一起工作、計劃和思考、分析和重復。它需要與各種元件和外掛程式相結合,以滿足特定業務領域的需求,因此Agent將成為未來各模型制造商生產的關鍵。

第三,業務套用的機會將會更多,比如知識庫、客戶服務、數碼人、附加編碼等情況。比如,采用大程式碼編寫模式,百度有一款名為「文心快碼」的產品,在百度得到了廣泛的套用。采用率可達46%,新程式碼生成比例達到30%,可以幫助企業提高開發效率。與此同時,許多從事人工智能套用開發的公司將會湧現。這些公司可以降低成本並將應用程式復制到較低的級別。只要表現高,就能脫穎而出。