矽谷創業一年，賈揚清講了自己的AI行業觀察：成本、市場增量和商業模式

2024-03-26科技

創業一年的賈揚清，選擇的方向是AI Infra。

賈揚清是最受關註的全球AI科學家之一，博士期間就創立並開源了著名的深度學習框架Caffe，被微軟、雅虎、輝達等公司采用。

2023年3月，他從阿裏離職創業，並在隨後錄制的播客中說，自己並非是因為ChatGPT火爆而創業，後來創業專案浮出水面，也確實證實，他沒有直接入局大模型。矽谷著名風投a16z在去年發表的一篇關於AIGC的文章中就曾經提到過：「目前來看，基礎設施提供商是這個市場上最大的贏家。」

賈揚清在去年的文章中也提到，「不過要做這個贏家，就要更聰明地設計Infra才行」。在他創辦的公司Lepton.AI的官網上，有一句醒目的Slogan「Build AI The Simple Way（以簡單的方式構建AI）」。

最近，賈揚清在高山書院矽谷站「高山夜話」活動中，給到訪的中國企業家做了一次深度的閉門分享，分享的內容直擊行業痛點，首先從他最專業的AI Infra開始，詳細分析了AI時代的Infra，到底有什麽新的特點；然後，基於AI大模型的特點，幫助企業算了一筆比較詳細的經濟賬——在不可能三角成本、效率、效果中，如何選才能達到比較好的平衡點。

最後也討論到AI整個產業鏈的增量機會及目前大模型商業模式的糾結點：

「每次訓練一個基礎大模型，都要從零開始。形象一點來描述，這次訓練‘投進去10個億，下次還要再追加投10個億’，而模型叠代速度快，可以賺錢的視窗也許只有大概一年。所以每個人都在思考這個終極問題，‘大模型的商業模式到底怎樣才能真正有效？’」

賈揚清的過往經驗大部份是TOB的。他也多次在分享中很坦誠地表示，「TOC我看不太清楚，TOB看得更清晰一些。」

「AI從實驗室或者說從象牙塔出來到套用的過程中，該蹚過的雷，都會經歷一遍。」無論大語言模型給人們多少驚艷，它的發展都不是空中樓閣，既往的經驗和範式有變也有不變。

為了方便閱讀，我們在文首提煉幾個主要觀點，但強烈建議完整閱讀，以了解賈揚清完整的思考邏輯：

一個通用的大模型的效果固然非常好，但是在企業實際套用當中，中小型模型加上自己的數據，可能反而能夠達到一個更好的性價比。

至於成本問題，我們也算了一筆經濟賬：一台GPU伺服器就可以提供支撐的7B、13B模型透過微調，性價比可能比直接使用閉源大模型高10倍以上。

我個人認為，輝達在接下來的3~5年當中，還會是整個AI硬件提供商中絕對的領頭羊，我認為它的市場發展占有率不會低於80%。但是今天AI模型逐漸標準化，我們也看到了硬件層面另外一個機會。

目前我們看到AI套用中，有兩大類套用，已經跨越死亡谷，開始有比較持續的流量：一個是提效，另外一個是娛樂。

大量的傳統行業套用，其實是AI行業裏值得探究的深水區。

我個人關於Supper App的觀點可能稍微保守一些，也有可能是因為我自己的經歷很多都在做TOB的服務，我認為Super APP會有，但是會很少。

以下為分享內容精華整理：

隨著大型語言模型的興起，出現了一個新概念——Scaling Law（規模定律）。根據Scaling Law，大語言模型的效能與其參數量、訓練數據的大小和計算量呈冪律關系。簡單來說，用通用的方法給模型巨大的數據，讓模型能夠擁有輸出我們想要的結果的能力。

這就使得AI計算與「雲端運算」有很大的不同，雲端運算主要服務於互聯網時代的需求，關註資源的池化和虛擬化：

● 怎麽把計算，儲存，網絡，從物理資源變成虛擬的概念，「批發轉零售」；

● 如何在這種虛擬環境下把利用率做上去，或者說超賣；

● 怎麽更加容易地部署軟件，做復雜軟件的免運維（比如說，容災、高可用）等等，不一而足。

用比較通俗的語言來解釋，互聯網的主要需求是處理各種網頁、圖片、影片等，分發給使用者，讓「數據流轉（Moving Data Around）起來。雲服務關註數據處理的彈性，和便捷性。

但是AI計算更關註以下幾點：

● 並不要求特別強的虛擬化。一般訓練會「獨占」物理機，除了簡單的例如建立虛擬網絡並且轉發包之外，並沒有太強的虛擬化需求。

● 需要很高效能和頻寬的儲存和網絡。例如，網絡經常需要幾百 G 以上的 RDMA 頻寬連線，而不是常見的雲伺服器幾 G 到幾十 G 的頻寬。

● 對於高可用並沒有很強的要求，因為本身很多離線計算的任務，不涉及到容災等問題。

● 沒有過度復雜的排程和機器級別的容災。因為機器本身的故障率並不很高（否則 GPU 運維團隊就該去看了），同時訓練本身經常以分鐘級別來做 checkpointing，在有故障的時候可以重新開機整個任務從前一個 checkpoint 恢復。

今天的AI計算，效能和規模是第一位的，傳統雲服務所涉及到的能力，是第二位的。

這其實很像傳統高效能計算領域的需求，在七八十年代我們就已經擁有超級電腦，他們體積龐大，能夠提供大量的計算能力，可以完成氣象模擬等服務。

我們曾做過一個簡單的估算：過去，訓練一個典型的影像辨識模型大約需要1 ExaFlop的計算能力。為了形象地描述這一計算量，可以想象全北京的所有人每秒鐘進行一次加減乘除運算，即便如此，也需要幾千年的時間才能完成一個模型的訓練。

那麽，如果單台GPU不足以滿足需求，我們應該如何應對呢？答案是可以將多台GPU連線起來，構建一個類似於輝達的Super POD。這種架構與最早的高效能電腦非常相似。

這時候，如果一台GPU不夠怎麽辦？可以把一堆GPU連起來，做成一個類似於輝達的Super POD，它和最早的高效能電腦長得很像。

這就意味著，我們又從「數據流轉」的需求，回歸到了「巨量運算」的需求，只是現在的「巨量運算」有兩個進步，一是用於計算的GPU效能更高，另外就是軟件更易用。伴隨著AI的發展，這將是一個逐漸加速的過程。今年NVIDIA推出的新的DGX機櫃，一個就是幾乎1Exaflops per second，也就是說理論上一秒的算力就可以結束訓練。

去年我和幾位同事一起創辦了Lepton AI。Lepton在物理中是「輕子」的意思。我們都有雲端運算行業的經驗，認為目前AI的發展給「雲」帶來一個完全轉型的機會。所以今天我想重點分享一下，在AI的時代，我們應該如何重新思考雲的Infrastructure。

企業用大模型，先算一筆「經濟賬」

隨著模型規模的不斷擴大，我們面臨著一個核心問題：大模型所需的計算資源成本高昂，從實際套用的角度出發，我們需要思考如何高效地利用這些模型。

以一個套用場景為例，我們可以比較形象地看出一個通用的大型語言模型與針對特定領域經過微調的模型之間的差異。

我們曾經嘗試過「訓練一個金融領域的對話機器人」。

使用通用模型，我們直接提問：「蘋果公司最近的財報怎麽樣？你怎麽看蘋果公司在AI領域的投入。」通用大模型的回答是：「抱歉，我無法回答這個問題。」

針對特定領域微調，我們使用了一個7B的開源模型，讓它針對性地「學習」北美所有上市公司的財報，然後問它同樣的問題。它的回答是：「沒問題，感謝您的提問。（Sure，thanks for the question）」口吻十分像一家上市公司的CFO。

這個例子其實可以比較明顯地看出，通用大模型效能固然很出色，但是在實際套用中，使用中小型開源模型，並用特定數據微調，最終達到的效果可能更好。

至於成本問題，我們也算了一筆經濟賬：一台GPU伺服器就可以提供支撐的7B、13B模型透過微調，性價比可能比直接使用閉源大模型高10倍以上。

如上圖所示，以Llama2 7B開源模型為例，100萬token的成本大約為0.1美元-0.3美元。使用一台輝達A10GPU伺服器就能支持訓練，以峰值速度2500token每秒來計算，一小時的成本大約為0.6美元。自有這台伺服器，一年的成本大約為5256美元，並不算高。

如果用閉源模型，100萬token消耗速度很快，成本遠高於0.6美元每小時。

不過成本消耗也要考慮套用的種類和模型的輸出速度，模型輸出速度越快，成本也會越高。如果可以有mini-batch（小批次數據集）等，同時來跑，它的整體效能就會更好，但是單個的輸出效能可能就會稍微差一點。

這就引出另外一個問題，大模型的輸出速度，怎樣比較合適？

以Chatbot舉例，人說話的速度大概為120詞每分鐘，成人閱讀的速度大概為350詞左右，反向計算token，每秒鐘20個token左右，就能達到比較好的體驗。如果這樣計算的話，如果套用的流量夠大，跑起來成本是不高的。

但是，究竟流量能不能達到「夠大」，這就變成了「雞生蛋、蛋生雞」的問題。我們發現了一個很實用的模式可以解決這個問題。

在北美，很多企業都是先用閉源大模型來做實驗（比如OpenAI的模型）。實驗規模大概在幾百個million（百萬token），成本大概為幾千美元。一旦數據飛輪運轉起來，再把已有數據存下來，用較小的開源模型微調自己的模型。現在這已經變成了相對比較標準的模式。

在考慮AI模型的時候，各家企業其實都在各種取舍中找平衡。在北美經常講一個不可能三角，當你買一輛車的時候跑得快、便宜和質素好，這三者是不可兼得的。

上文提到的標準模式，其實就是首先追求質素，然後再考慮成本，如果想同時滿足這三方面，基本是不可能的。

半年之前我非常強烈地相信開源模型能非常迅速追趕上閉源模型，然而半年之後，我認為開源模型和閉源模型之間會繼續保持一個非常合理的差距，這個差距用比較形象的具體模型舉例來說，閉源模型到GPT-4水平的時候，開源模型可能在GPT3.5左右。

硬件行業的新機會

早在2000年初，輝達就看到了高效能計算的潛力，於是2004年他們做了CUDA，到今天為止已經20年。今天CUDA已經成為AI框架和AI軟件最底層的標準語言。

早期，行業內都認為高效能計算寫起來很不方便，輝達介紹了CUDA，並說服大家它簡單易用，讓大家嘗試來寫。試用之後，大家發現確實易用且寫出來的高效能計算速度很快，後來幾乎各大公司的研究員們都把自己的AI框架基於CUDA寫了一遍。

CUDA很早就和AI社區建立了很好的關系，其它公司也看到了這個市場的巨大機會，但是從使用者側來看，大家用其它產品的動機不強。

所以市場上還會有一個關註焦點，那就是是否有人能夠撼動輝達的地位，除了輝達，新的硬件提供商還有誰可能有機會？

首先我的觀點不構成投資建議，我個人認為輝達在接下來的3~5年當中，依然還會是AI硬件提供商中絕對的領頭羊，它的市場占有率不會低於80%。

但是今天AI模型逐漸標準化，我們也看到了硬件層面另外一個機會。前十年中，在AI領域大家都在糾結的一個問題，雖然很多公司能夠提供相容CUDA的適配，但是這一層「很脆」。「很脆」的意思是模型多種多樣，所以適配層容易出問題，整個工作鏈就會斷。

今天越來越少的人需要寫最底層的模型，越來越多的需求是微調開源模型。能夠跑Llama、能夠跑 Mistral，就能滿足大概80%的需求，每一個Corner Case（特殊情況）都需要適配的需求逐漸變少，覆蓋幾個大的用例就可以了。

其它硬件提供商的軟件層在努力相容CUDA，雖然還是很難，但是今天搶占一定市場占有率，不再是一件不可能的事情；另外雲服務商也想分散一下投資。所以這是我們看到的一個很有意思的機會點，也是cloud infra在不斷變化的過程。

生成式AI浪潮：哪些是增量機遇？

我們再看一下AI套用的情況。今天我們可以看到AI套用的供給在不斷增加。從Hugging Face來看，2022年8月模型數量大概只有6萬，到2023年9月，數量就已經漲了5倍，增速是非常快的。

目前我們看到AI套用中，有兩大類套用，已經跨越死亡谷，開始有比較持續的流量：

第一大類是提效（productivity）。例如在電商行業，用AIGC的方式更快生成商品展示圖片。例如Flair AI，套用場景舉例來說，我希望能給瓶裝水拍攝一個廣告圖片，僅僅需要把水放在方便的地方，拍一張照片。然後把這張照片發送給大模型，告訴它，我希望它被放在有皚皚白雪的高山上，背景是藍天白雲。它就能生成一個直接可以上傳電商平台，作為產品展示的圖片。

其它類別也有很多，比如在企業海量知識庫做搜尋且有更好的互動功能，例如Glean。

第二大類是娛樂（entertainment），比如Soul，以AI的方式做角色扮演及互動。

另外我們還發現一個趨勢是「套殼APP」越來越少了。其實大家發現直接「套殼」通用大模型的產品會有一個通病，互動效果特別「機器人」。

反而是7B、13B的稍小模型，性價比和可調性都特別好。做個直觀的比喻：大模型就好像是「讀博士」讀軸了，反而是本科生的實操性更強。

做套用層，總結來講有兩條路徑：第一條是訓練自己的基礎大模型，或者是自己去微調模型。

另外就是有自己非常垂直領域的套用，背後是很深的場景，直接用Prompt是不可行的。

比如醫療領域，使用者提需求問：「我昨天做的化驗結果怎麽樣？」這其實需要背後有個大模型，除了對化驗指標做出專業的分析，還需要給使用者提出飲食等建議。

這背後涉及到化驗、保健、保險等產業鏈的多個細分場景，需要醫療產業鏈很深的經驗。需要在既有的經驗上加一層AI能力來做好使用者體驗，這是我們今天發現的比較有持續性的AI套用模式。

關於未來到底怎樣，預測未來是最難的。我的經驗一直是B端，邏輯主要看供需。AI帶來的增量需求首先是高效能的算力。第二個是高質素的模型，以及上層需要的適合這些高效能、高質素和高穩定性需求的計算的軟件層。

所以我覺得從高效能算力來看，輝達顯然已經成為贏家。另外這個市場可能會容納2~3家比較好的芯片提供商。

從模型來看，OpenAI肯定是一個已經比較確定的贏家，市場足夠大，應該能夠容納3-5家不同的模型生產廠商，而且它很有可能還會出現偏地域性的分布。

傳統行業的AI深水區

我還想講的是大量的傳統行業套用，這其實是AI行業裏值得探討的深水區。

大語言模型出現，大家曾經一度覺得OpenAI弄了一個特別厲害的大模型，寫點Prompt就能搞定任何事情。

但是Google早在世紀之初就寫過一篇文章，到今天我仍然覺得這個觀點是對的。這篇文章說，機器學習模式只是整個AI鏈路中非常小的一部份，外面還有大量的工作，在今天來說也會變得越來越重要。比如如何收集數據、如何保證數據和我們的套用需求一致，如何來做適配，等等。

模型上線之後還有三件事：第一是跑的穩定，第二個是能夠把結果質素等都持續穩定地控制起來，以及還有非常重要的一點是把套用當中所得到的數據，以一種回流的方式收集回來，訓練下一波更好的模型。

到今天這個方法論依然適用，就是在行業競爭中，誰能有數據，誰能夠把使用者的反饋更好地偵錯成「下一波訓練的時候可以更好的套用」的數據，這也是核心競爭力之一。

今天大家都有這樣一種感覺，大模型的結構相差不大，但是數據和工程能力的細節才是決定模型之間差別的地方，OpenAI其實持續在給我們證明這件事。

今天我們看整個技術棧的架構是什麽樣子的，a16z給了我們一個非常好的總結（如下圖）：

IaaS這一層基本上是輝達做「老大」，其它公司在競爭硬件和雲平台，這是最下層的堅實基礎。

雲平台今天也在發生不斷的變化，大家最近可能在技術趨勢上聽到一個詞叫做「下雲」，以前大家肯定聽說過「全棧上雲」。

為什麽會出現「我要下雲」的思潮？就是因為算力本身是巨大的成本，而且又是可以「自成一體」的成本，所以行業內開始把傳統的雲成本和今天AI算力的成本分開來考慮。

今天越來越多的PaaS開始變成Foundation Model，有些是閉源的，有些是開源的，然後在上面再做一層APP。今天每一層都競爭激烈。但是我個人感覺在模型這一層以及往上的上層套用這一層，是最活躍的。

模型層主要是開源和閉源之爭。

套用層有兩個趨勢：一個是模型在努力往上做套用；另外就是是套用層在拼命想理解模型到底能有什麽能力，然後把自己的套用加上AI，讓自己的套用更強大。

我個人認為，模型往上做套用有點難，套用把自己的AI能力加進來更有希望。

國內還有種說法叫做Super APP（超級套用），Super APP很重要的一點是需要「端到端把問題解決」。a16z在他的圖上也描述會有一些端到端的APP出來，本質上需要模型的推理和規劃的能力做的非常好。ChatGPT就是端到端全部打通，模型也是自己的，套用也是自己的，這是Super App的狀態。

但是我個人關於Super App的觀點可能稍微保守一些，也有可能是因為我自己的經歷很多時候都在做TOB的服務，我個人的感覺是Super APP會有，但是會很少。

我個人的感覺是，B端的套用越來越多的還是會以一種像搭積木一樣，用開源的模型結合企業自己的數據，把企業自己的套用搭起來的一個過程。

大模型的商業模式：兩個糾結和一個市場現象

但是在大模型進行商業化落地的過程中，我觀察到市場還是會有兩個糾結：

第一個糾結是營收的流向和以往不太一樣，不太對。

正常商業模式的流向應該是：從使用者那裏收費，然後「留成本」給硬件服務商，比如輝達。但是今天是橫向的，從VC（風投）拿到融資，直接「留錢」給硬件廠商。但是VC的錢本質是投資，創業者最後可能要10倍還給VC，所以這個資金流向是第一個糾結。

第二個糾結是今天的大模型對比傳統軟件，可以創造營收的時間太短。

其實開發一次軟件之後，可以收回成本的時間比較長。比如像Windows，雖然過幾年叠代一代，但是它底層的很多程式碼是不用重寫的。所以一個軟件被寫完，可能在接下來的5-10年當中，它給我時間視窗持續叠代。而且投入的成本大部份是程式設計師的成本。

但是大模型的特點是，每次訓練過一個模型之後，下一次還是要從零開始重新訓練。比較形象一點來說「今天投入10個億，再叠代的時候，又得再追加投入十個億」。

但是模型的叠代速度又很快，中間能夠賺錢的時間視窗究竟有多長？今天看起來好像大概是一年左右，甚至更短。

於是大家就開始質疑，大模型的成本遠高於傳統的軟件，但是做完一個模型之後，能賺錢的時間遠低於傳統的軟件。

所以就回到了這個終極問題，大模型的商業模式到底怎樣才能真正有效？

我還觀察到一個市場現象，去年整個市場都非常痛苦，硬件需求的突然暴漲，整個供應鏈都沒反應過來，等待時間很長，甚至可能6個月以上。

最近我們觀察到的一個現象是供應鏈沒有那麽緊張了。第一是全球供應鏈也開始緩過來；第二我個人判斷有一部份以前因為焦慮而提前囤貨的供應商，覺得現在要開始收回成本了。之前供不應求的緊張狀態會逐漸變好，但是也不會一下子變成所有人都愁賣的狀態。

以上就是我基於這波生成式AI爆發，對整個AI產業造成的影響的個人觀察。也正是在這個浪潮中，Lepton正在持續幫助企業和團隊在生成式AI落地的過程中找到成本、效果、效率的最佳均衡點。最後，其實可以以Richard S. Sutton——增強學習領域開山立派的一位導師，在2019年說的一句話作為總結，「在整個70年的AI科研中，最重要的經驗就是，透過一個通用的方法（今天是深度學習），來利用大量的計算模型（今天是以輝達為代表的異構GPU為基礎的高效能計算），這樣的方式是整個70年AI發展中最有效、最簡單的方式。」

本文作者：郭曉靜，來源：騰訊科技，原文標題:【矽谷創業一年，賈揚清講了自己的AI行業觀察：成本、市場增量和商業模式】

本文來自華爾街見聞，歡迎下載APP檢視更多