來源:真格基金
推理成為下一「戰場」,AI Infra 創企「淘金」視訊大模型。
作者|朱可軒
編輯|陳彩嫻
作為 2020 年全球高效能計算領域在 Google Scholar 上參照次數最高的博士畢業生,尤洋曾被 UC Berkeley 提名為 ACM Doctoral Dissertation Award 候選人(81名 UC Berkeley EECS 2020 博士畢業生中選 2 人)。
同時,他也是世界上唯一一位 35 歲以下在 4 個頂會(AAAI, ACL, IPDPS, ICPP)上以領導者的身份(第一作者或通訊作者)獲得 Best Paper/Distinguished Paper 的人。
2021年 7月,尤洋創立潞晨科技,轉眼間,已經走進第三個年頭。而經過三年時間的沈澱,投資機構對潞晨的估值增長了 40 倍。
在向 AI 科技評論談起商業上的目標時,尤洋表示,「我們要把潞晨的市值做到 200 億到 300 億這個量級,然後上市。目標非常量化也很明確,就是達到 20 億的收入。」
回望這些年,為了適應 AI 時代對於基礎設施的需求,潞晨在戰略上也進行了許多調整。
隨著大模型的發展重心由 Pre-training 逐漸轉向 Post-training 和 Inference,去年年底,潞晨正式開始布局訓推一體機。
同一時間段裏,尤洋和團隊也意識到了雖然作為基礎設施中間層的公司,但自身也是需要有一定模型能力的。於是,今年 6 月,潞晨自研並釋出了全球第一個開源類 Sora 架構視訊生成模型 Open-Sora。
談及這方面的布局,在尤洋看來,「如果不去做一個自己的優質大模型的話,那推理平台上其實是沒有優質資源的。」這也是潞晨有競爭力的點所在。
不過,最關鍵的原因還是在於,「視訊大模型還處在 GPT-1 時期,而發展到 GPT-4 之時,對算力的需求要求會是最高的,這是 AI 基礎設施公司最容易產生大價值的方向之一。」尤洋這樣向 AI 科技評論解釋。
視訊大模型和訓推一體機是潞晨目前在推理方面的兩塊重點布局方向。而在把 Open-Sora 做成一個爆款之前,由於還是需要依賴開源模型,訓推一體機則是潞晨的首要發力點。
除此之外,「生態」是尤洋對外多次提到的核心關鍵詞。他堅持認為,「AI Infra 創業公司的長期壁壘就是在於生態,如若連生態都沒有,將會很難與巨頭對抗或是共存。」
目前,潞晨是世界上唯一一家有自己獨立開源生態的 AI Infra 創業公司,開源社群大概有 4 萬到 10 萬這個量級的開發者在深度使用潞晨的產品。
以下是 AI 科技評論與尤洋的訪談實錄,作者進行了不改原意的編輯整理:
1
長期壁壘在於生態
AI 科技評論:潞晨成立至今已經有三年了,創業這三年來,您覺得和做學術相比會不會更艱辛?有什麽心得體會可以分享一下嗎?
尤洋: 我覺得要成為楊振寧還是馬雲,其實二者可能不能直接相比,他們的成功都不會太容易,這是我的一個基礎看法。對於我個人而言,我現在還年輕,今年才 33 歲,所以還是有很大探索空間的。
我目前沒有感覺到難度,當然我不是說我很厲害,我的意思我給自己定了一個比較合理的目標,如果我要是現在就想五年之內拿諾貝爾獎,這簡直天方夜譚,或者我五年之內把公司做到輝達那樣的市值,也不太可能。
其實我覺得這個東西難易還是分人,當然首先是每個人基於自己的水平狀態設一個合理的目標,由於我設的目標還算合理,所以我現在倒沒有感覺到太艱辛。當然有很多人的 Google Scholar 參照數比我多很多,還有一些人公司的市值,比如說國內這幾家大模型公司肯定都比我們高,我覺得還是給自己一個合理的定位。
而我目前的定位,學術方面就是做出有影響力的工作,商業方面就是要把潞晨的市值做到 200 億到 300 億這個量級,然後上市,我們的目標非常量化也很明確,就是達到 20 億的收入。
AI 科技評論:看到官網介 紹,潞晨在 GitHub Trending 開源社群熱度榜世界第一。Colossal-AI 和 Open-Sora 均多次登上 Github 全球榜單第一,目前你們開源社群的開發者大概有多少呢?
尤洋: 我們開源社群的開發者大概有 4 萬到 10 萬這個量級在深度使用。
Github有周榜和日榜,我們好像上過三次周榜,七八次日榜,就相當於如果上了日榜的話,今天就是全世界最受關註的開源計畫。當然我不能說我的產品是世界第一,我覺得在大模型訓推軟體方面,Pytorch 肯定是毋庸置疑的世界第一,我覺得我們是除了Pytorch之外比較有影響力的,當然跟 Pytorch 差距還是很大。
AI 科技評論:開發者使用潞晨的產 品有遇到過什麽難題嗎?你們是怎樣解決的?
尤洋: 我們的開發者大體而言,第一類是偏科普,第二類就是平衡客製化需求是不是足夠通用。
首先,因為好多人是不斷切到大模型這個賽道裏的,他們沒有相關背景知識,使用之時如果連背景知識都沒有,就像是我們做的是專業挖金子的東西,他連這些金子在哪的基本常識都沒有,那他們肯定會遇到一些困難,所以我們需要做一些科普型工作。
然後,對於專業的開發者而言,他們也用過 DeepSpeed、Megatron,甚至想自己寫框架,這種深度使用者往往有一些偏客製化的需求,這一點我們需要權衡一下,因為我們是通用的工具,我們可能為了一些使用者把它改成一個特別小眾的工具。這兩類使用者都可能給我們提出一些很有效的建議,我們進一步改進。
AI 科技評論:開 源社群應該是潞晨比較重視的部份。
尤洋: 我覺得 AI Infra 創業公司的長期壁壘就是在於生態。
這一波 AI 可能才兩三年,還看不出究竟誰能夠成下一個巨頭,那可以看一下上一波的 AI 基礎設施公司,其實就是大數據,從 2010 年到 2020 年這十年之間可能最成功的就是 Databricks、Snowflake,他們的策略還是要跟使用者生態去繫結。
這就是為什麽 Databricks 要構建它的 Spark 生態,也是做了一個很大的開源社群,然後前兩年是主要培養開發者,開發者逐漸融入到各個行業之後,給他真正帶來一些客戶、收益,才能不斷把這個做起來。
否則如果作為基礎設施公司連生態都沒有,就很難跟大廠去對抗或者共存。確實 AWS 也嘗試做著開源生態,但是大廠也不一定很擅長,這也是他們允許類似於 Databricks 這樣的公司分一杯羹的原因所在,當然他們是共享營收的。
我們在海外市場的有利競爭也是在生態上,我們是世界上唯一一家有自己獨立開源生態的 AI Infra 創業公司,這一部份使用者是我們的忠實使用者。
AI 科技評論:那潞晨 現在會和雲廠有競爭嗎?
尤洋: 我們和雲廠沒有競爭關系,尤其是在中國就更沒有了。我可以說一下中國的實際情況,就是中國的雲廠商實際上沒有高端算力,因為要比較嚴格遵守美國制裁。而我們現在做的主要是把中國民間已有的合法高端算力,聚集起來形成一個塊,或者在廠商內部提供服務,意思就是廠商內部可能買了A100、p00,我們進一步給他們服務。
AI 科技評論:你們現在的 重心實際上也不是大模型公司。
尤洋: 我們是有跟大模型公司合作的,但是目前更多的是跟一些微調的公司在合作。
我可以解釋一下 Pre-training、 Post-training 和 Inference,我覺得 Pre-training 的話肯定是大模型公司比較喜歡做的,但是他們由於融資額比較高,就像我沒聽說過 Together.AI、 Lambda Labs 有機會去服務 OpenAI,要想服務 OpenAI,必須得像微軟這樣的體量。或者像馬斯克的大模型公司,不要供應商,自己弄了 10 萬卡集群。
不管是美國的大模型公司,還是中國的大模型六小龍,他們要自己去建自己的基礎設施,不然就是被大型雲廠服務,創業公司根本切不到這一塊蛋糕。我們也收到了一些大模型公司的客戶,但並不把他們定為我們的戰略重要目標,只是透過跟他們合作看看有沒有需要我們補的技術點。
我們目前收到的收入,主要來源於一些 Post-training,就是預訓練之後的 training 階段的公司,比如說車廠、藥廠、石油公司、金融機構。他們有數據私密的需求,然後又沒有大規模集群,可能最多買了千卡,但他們對效率要求也很高,實際上也是在做內部業務的大模型的。
2
推理層面的價值點
AI 科技評論:潞晨現在自己也入局了大模型,釋出了類 Sora 架構視訊生成模型 Open-Sora,國內其他 AI Infra 的廠商好像都沒有下這一步棋。你們的初衷為何呢?
尤洋: 因為未來兩三年視訊生成大模型發展空間是最大的,對算力的需求也是最高的。當然,我的意思是如果視訊大模型也發展到 GPT-4 這個層面,今天 OpenAI 說視訊大模型只是在 GPT-1 的階段。
當前,視訊大模型還很小。比如說,我想生成一個 720P 解析度的視訊,並且還是用不大的模型的話,就需要一台機器八卡,大概 1 到 4 分鐘才能生成。由此可見,這種級別的擴充套件對 AI 基礎設施功力的最佳化是需求最高的。
第二個原因是我們在實際服務的客戶裏面,也真實遇到了一些客戶有這樣的訴求,他們確實是希望基礎設施廠商能提供一個很好的視訊大模型樣版,方便他們在行業落地。
其實可以看一下目前做基礎設施最好的公司,Together.AI 是不錯的 AI 基礎設施公司,他們透過服務視訊大模型公司 Pika 積累了很多寶貴的產品經驗,同時收獲了營收,基本相當於做了視訊大模型布局。然後 Lambda Labs 平台上的樂高是基於潞晨 Open-Sora 做的,他們也在做類似的布局。
但歸根到底,我們做這塊的初衷還是覺得視訊大模型對算力的需求要求比較高,這是 AI 基礎設施公司最容易產生大的價值的一個方向。
為什麽我相信視訊大模型比LLM更可能有長期scaling law?因為視訊大模型的訓練數據就是客觀世界的真實寫照,數據的最終制造者是造物主,大模型完全可以發現其內在的規律。LLM的訓練數據是互聯網和書籍,數據制造者的水平參差不齊,而且有很多歧義和垃圾資訊。
每個人從出生開始,並不是每時每刻都在閱讀文字,但無時無刻不在接受視訊輸入,甚至文字本身也可以作為視覺輸入。在嬰幼兒時期,人類不識字卻能發展出智慧,這都說明了視覺訊號本身足以scale。且視覺中的各式各樣的物理規律,也需要scale到一定規模才有可能精確掌握。
AI 科技評論:那 Open-Sora 和目前市面上其他采用 Diffusion Transformer(DiT) 架構的視訊生成模型相 比,差異化優勢具體體現在何處?
尤洋: 我們的最大優勢在於 id 一致性。
有一些商業客戶在用我們的 feature,雖然沒發到 Open-Sora 裏,因為可能短時間內真的能夠變現的話,就是面向視訊制作者、電影制片人等等,這種情況下,裏面人物的一致性還是比較關鍵的。
比如說,我能不能在我導師女兒生日的時候,給她生成一個專屬的小電影,我們的 Open-Sora 在內容上就是強調 id 一致性的,這塊我們也下了很多功夫,雖然沒有開放。
近期,我們也打算把它拿到我們商業化產品裏,在商業化產品釋出以後,再看看是不是有必要開源,釋出時間大概在國慶日前後。
AI 科技評論:這也是你們在推理這一塊的 發力點之一。能否詳細介紹一下潞晨的整體推理布局呢?
尤洋: 現在我們其實做了很多推理方案。
第一,就是要把我們的視訊大模型做好,要上線、有服務,這對我們的鍛煉價值還是非常高的,確實真正有人在用,我們也會努力把視訊大模型的推理速度最佳化到極致。
第二,我個人對於 AI Infra 創業公司做 MaaS 去賣開源模型的 API 有一些顧慮。最開始其實我們也想過這條路,是特別美好,但是這塊蛋糕普通人拿不到。比如說,作為 AI 開發者到底是調這類平台的API,還是調月之暗面、智譜、DeepSeek 的API,DeepSeek、通義千問都有自己的 MaaS,感覺這種方式相當於在和通用大模型公司競爭。並且,如果不去做一個自己的優質大模型的話,那推理平台上其實是沒有優質資源的。
現在最核心的就是這一塊,大模型還在能不能進入別人的生產環節之中被討論之時,價格和速度是次要的,最重要的是能不能真正產生智慧效果,內容生成品質到底如何,現在做推理 MaaS 最核心的是有沒有優質資源,這也是現在只有 ChatGPT 能夠帶來數億美元收入的原因所在。
所以,我們當前的重點其實是在訓推一體機上。因為現在 Open-Sora 顯然沒有到達一個 superstar 的階段,我們的影響力肯定還遠遠不如 Kimi,更別說跟 ChatGPT 比了。在把 Open-Sora 做成一個爆款之前,我們還是要先依賴開源模型。這方面就要想清楚什麽時候開源模型對閉源模型有優勢,這也是我前面提到的顧慮所在,因為我覺得開源模型在那種情況下相對閉源模型沒有任何優勢。
什麽時候有優勢呢?就是能不能把使用者的稀有數據去微調一下的開源模型,透過 post-training 把開源模型變成一個使用者高度客製化的版本,那這個場景既然是私密的話,其實就是賣一體機。我們可以把我們訓練的基礎設施或者軟體都弄到一體機裏,或者我們的潞晨雲上,讓客戶透過這種方式先微調出自己的客製化模型,然後透過一體機服務內部。
或者他們不願意買一台機的話,可以上我們的雲,把整個機器包下來,我們相當給他們做了一個 serving instance,就像 AWS Google cloud 上每個伺服器就要一個 instance,相當於構建了一個 serving 的機器,他們可以快速把自己的模型部署上去,不是調API,而是對模型有十足的控制。
AI 科技評論:潞晨的訓 推一體機商業化情況如何了?
尤洋: 已經達到指標了,今年我們在訓推一體機上的目標是獲得 2000 多萬的收入,現在已經快 3000 萬了。
AI 科技評論:目前 主要是和華為合作嗎?
尤洋: 不止和華為合作,任何合法的華為或者輝達機器我們都考慮。主要是華為的昇騰 910B 和馬上就要釋出的昇騰 910C ,加上輝達的 p0。
AI 科技評論:前段時間聽說 你們在談算力中心落地,這塊是有什麽樣的布局?
尤洋: 因為各地的算力中心,他們的優勢是有一些資金,而劣勢就是他們的軟體,特別是類似於 Colossal-AI,或者訓推一體的軟體方面積累不是很多,這會導致芯片買過來之後,最壞情況下變成廢鐵了。
比如說,之前就有個地方政府弄了 3000p 的算力,但是閑置率基本上99%,賣都賣不出去,這樣就很不好。他們其實就是希望我們的軟體把它最佳化一下,讓這 3000p 的算力真正能發揮出 3000 張 p00 的價值。
AI 科技評論:您覺得潞晨目前 還有沒有什麽需要補齊的短板呢?
尤洋: 關於短板,去年我們意識到自身是需要有一定模型能力的,所以我們才做視訊大模型,這是去年年底我們思考到的一些事情,要想服務好這些公司,得自己先訓過模型,如果自己都沒訓過,他們會不放心把有些計畫交給我們。所以訓練視訊大模型,順便也是補齊了我們在這方面的短板。
這樣的話我們才有資格去服務。現在4 個世界 500 強客戶和 7 個世界 2000 強的客戶已經給我們付費了接近千萬元,是對我們最大的認可。這塊也是潞晨比較有競爭力的點所在。
3
海內外的發展機遇
AI 科技評論:那您覺得海內外 AI Infra 目前有什麽差異?
尤洋: 國內可能現在由於諸多因素的限制,我感覺沒有一個很自動化的產品能夠快速跑出來,而且國內由於算力都分散在地方政府的手裏,同時高端算力對中國明面上也禁運,芯片層的一些限制導致上層軟體目前發展速度沒有那麽快。海外的話,由於輝達快速統一了市場,這些公司反而比較好做,基於輝達再把事情做好就可以了。
AI 科技評論:國內 的痛點也是在這塊嗎?
尤洋: 國內當前的痛點肯定首先是能不能有一兩款硬體迅速整合市場,相當於把 AI 基礎設施軟體以下的基礎設施,也就是芯片層,確實要統一好。不過機遇也是有的,我相信中國的市場比較大,未來不會比美國小。
AI 科技評論:那潞 晨目前在海內外的布局情況如何?
尤洋: 目前我們在海內外沒有做嚴格區分,因為我覺得現在我們還是在產品試錯的階段,從總收入而言,國內可能跟去年的口徑是差不多的,而且我們的視訊大模型也有海外版的,本身我們也服務了一些海外的客戶,然後我們的潞晨雲其實也有海外版的,海外客戶更容易對這種軟體服務付費,所以說目前海內外收入是差不多的。
AI 科技評論:潞晨雲的海外 版和國內版使用者會有什麽差異嗎?
尤洋: 國內版的話客戶更散,我們發現國內的客戶,如果訓的模型比較大的話,可能會自己去買伺服器,它是真正上雲的地方,雖然是數量很多,但是都比較散的,所以我們的最小最佳化單位是一張卡。
國外的話相對於而言更整一點,一個公司去采購,也不會去訓那麽小的模型,所以我們最小最佳化單位是一台伺服器。
AI 科技評論:你們開拓海外市場 會在哪些方面覺得比較有壓力?
尤洋: 我覺得小規模的情況下,就比如說我們現在想做到 2 億人民幣這個收入,這個階段的話還不會有太大壓力。不過之後做到 10 億人民幣的話,肯定就會就要引起 CoreWeave、Lambda Labs 等公司的註意了。
AI 科技評論:我記得您之前有提到說潞晨科技 是中國的 Together.AI,產品會有什麽差異嗎?
尤洋: 最大的差異就是 background 不太一樣。
我們是做平行計算的,Together.AI 可能更偏重於演算法修改,我們的理念是把訓練、推理這些計算改進過之後,它的精度是不會變的,只是改了計算的方式,結果是一模一樣的,Together.AI 可能會涉及到一些新的 trick 或者新的方法去平衡精度和速度。