當前位置: 華文世界 > 科技

矽基向左,潞晨向右

2024-08-23科技

如果將大模型套用開發比做「淘金」,那麽構建大模型基座所必需的算力和工具體系,則是不可或缺的「鏟子」。

俗話說,淘金先富賣鏟人,誰都想在這場 AI 浪潮中「分一杯羹」,不光巨頭在爭當「賣鏟人」,也有不少創業公司從中發現了新的機遇。

其中,在加速計算賽道,袁進輝帶領的矽基流動與尤洋創辦的潞晨科技可謂典型代表,在他們之外,國內早期能做出分布式系統的團隊並不多。

然而,雖然賽道相同,二者卻屢屢選擇不同的分岔路口——

從時間線上來看,2017 年開啟創業之旅的袁進輝選擇了打破壟斷、挑戰巨頭 meta,其所帶領的 oneFlow 也以 Pytorch「挑戰者」的姿態登場,從頭自研訓練框架。

而 2021年正式入局的尤洋,則選擇了一種更為審慎而高效的方式——在PyTorch這一成熟框架的基礎上,進行分布式計算的創新與開發。

這也是早期在聚焦訓練時,二者最明顯的區別所在。如今,大模型「卷」入下半場,重視推理已成為業內共識。

值此之際,二者在打法上又出現了些許差異。延續團隊早期的思路,矽基流動的推理框架 SiliconLLM 仍是獨立於主流框架 vLLM 和 TensorRT-LLM 外的第三套系統,潞晨科技則專註基於 Colossal-AI 框架進行最佳化。

值得一提的是,為推進商業化行程,潞晨科技進一步拓展了產品版圖,正式推出了文生影片大模型 Open-Sora。對比而言,矽基流動則並未公開過大模型。

而在雲平台業務的開展上,矽基流動無需租用雲資源並下載模型,潞晨科技則選擇了開展算力租賃業務,在此基礎上輔助模型訓練、微調、推理加速。

二者做出不同選擇的原因為何?分別又是如何在下半場繼續扮演好「賣鏟人」角色的呢?

站在前人的肩膀上

在分布式深度學習框架的創業領域,真正能夠實作突破的團隊寥寥無幾,袁進輝和尤洋可以說是最早出發的那一批人。

2016年,尤洋開始涉足分布式計算領域,當時,業界主流還集中在異步計算的分布式技術上。

同在這一年,袁進輝也在與圈內人討論時提到,當深度學習模型的參數變得越來越大後,模型的訓練就不是TensorFlow、MXNet 或 Caffe 等框架能駕馭的。

但那時的 AI 領域還沒有出現參數量極大的深度學習模型,所以也有許多人認為這個觀點不成立。

2017 年 1 月,袁進輝帶著團隊正式啟程創業,他親自命名並在北京創辦了 OneFlow。

彼時的 oneFlow 重新定義了分布式計算的實作方式,實作了讓多卡分布式系統編程變得像單卡一樣直觀和便捷。

oneFlow 所做的底層框架,雖然 API 與 PyTorch 相同,但底層的算子實作與框架從上到下的每一份程式碼都是袁進輝帶領團隊自己寫的。

甚至後來在 2022 年,PyTorch 的 DiscreteTensor 在分布式上也借鑒了 oneFlow 的 GlobalTensor。

2022 年Pytorch創始人之一 Soumith Chintala 的推文

時間回到 2020 年6 月,當時,OpenAI 釋出了全球規模最大的預訓練語言模型 GPT-3,驗證了袁進輝早期觀點的正確性。

也就是在這年,尤洋帶來了潞晨科技的新故事,彼時研究高效能計算的他剛剛從美國加利福尼亞大學柏克萊分校畢業並獲得博士學位。

而面對 GPT-3 的出世,尤洋也有一種預判——未來大模型很重要,限制大模型在各行業落地的難點肯定是計算成本。他也因此萌生了開展大模型相關創業的想法。

直到 2021 年,尤洋的這一想法才正式落地。7 月,他創辦了潞晨科技,並帶領團隊進一步推動了分布式計算的邊界。

不同於袁進輝從頭自研框架的思路,同樣瞄準加速計算賽道,尤洋帶領的潞晨科技則選擇了直接基於 PyTorch 打造大模型訓練推理加速系統 Colossal-AI。

分布底層的 API 呼叫也是 PyTorch,尤洋及其團隊所做的主要是將上層的算子重寫並最佳化通訊效率及視訊記憶體占用,讓分布式計算更加高效和易於使用。

基於此,Colossal-AI 系統提供統一的並列訓練推理系統,以幫助開發者實作數據並列、管道並列、張量並列和序列並列等多種並列技術的無縫整合。

相當於站在前人肩膀上,潞晨科技在 PyTorch 基礎上重新實作了分布式,所做的內容也更貼近開源社區。

對於其中緣由,尤洋曾經向 AI 科技評論解釋稱,「一方面,把開源社區做好,確實創造了更大的價值,即使免費也有很多人用;另一方面,公司最終肯定是想上市的,本質上 AI 在 To B 方面最核心的競爭力是要和使用者建立強信任繫結關系。」

而 PyTorch 的大眾化程度,也使得潞晨科技更易於被接受,與之相比,oneFlow 則較為小眾,吸引開發者的難度相對較高,就此形成了二者早期的差異。

最終,oneFlow 在取代 PyTorch 的「擂台賽」中,還是「輸」在了生態上。

「有亮點但不足以扭轉局面。」袁進輝曾這樣評價,「 PyTorch 生態和上下遊完備,綜合來說,肯定是基於 PyTorch 去做事情,更有利於產品的推廣。」

除此之外,也有業內人士告訴 AI 科技評論,「oneFlow 不依賴開源社區,很多基座都是自己做的,所以很多公司如果模型是用 PyTorch 寫的,就不太可能會用 OneFlow,除非 oneFlow 跟這家公司或者其他大廠合作。」。

盡管如此,袁進輝仍舊十分樂觀:「雖然工業標準沒有弄成 PyTorch 的標準地位,但還是把技術的一個無人區、沒人探索的東西提前好幾年做了,後面也變成真正流行開來。」

歸根到底,技術是「敲門磚」,二者的技術實力都毋庸置疑。

但是,有技術遠遠不夠,如何盈利同樣關鍵,而這也是 AI 賽道一眾創業公司最難解的「題」。

2020年,在 oneFlow 時期,袁進輝帶領團隊做過很多嘗試——推出過大規模模型訓練開源工具箱 Libai(李白)等產品,做過面向領域的加速方案,也有如 AI 開發平台 oneBrain 等產品。

此後,好不容易找到突破口,卻因缺少條件或錯過時間點,使得推廣困難、商業化步伐緩慢。最終,oneFlow 還是沒能形成收入。

時間來到 2021 年,這一年, 是 AI Infra 和開源投資的熱潮期,高瓴資本也在這時投資了 OneFlow,袁進輝卻並未多拿錢,他還是希望先精進好技術後再融資。

但是,機會不等人,待到次年技術足夠耀眼時,資本卻先一步冷靜下來了。實力之上,袁進輝終究缺了點運氣。

2023 年,隨著 ChatGPT 的橫空出世,「百模大戰」打響第一槍。而由於大模型有一定門檻,袁進輝在綜合考慮資金、資源整合和商業化問題後,選擇了和王慧文合作,oneFlow 並入光年之外。

他們二人並肩作戰的時日也並不長,同年,光年之外被美團收購,堅定創業理想的袁進輝則選擇了出走另起爐竈。

談及其中緣由,袁進輝曾反思道,「技術上的好奇心在 oneFlow 時期已滿足,還未滿足的、未完成的願望追求主要是商業層面。作為一個創業公司,本質上最終要看商業成功,還是要讓客戶用真金白銀來投票。」

於是,他帶著商業理想再出發,今年初,矽基流動(SilliconFlow)正式成立。

同樣是在 2023 年,潞晨科技的商業化情況卻比 oneFlow 要理想許多。

「Colossal-AI 訓練大模型的路線已經在掙錢,」尤洋此前向 AI 科技評論透露,「現在我們已經有很多世界 500 強、2000 強的客戶,包括國內這幾家創業公司都是我們的潛在客戶,像阿裏通義千問、百度文心一言、MiniMax 可能都用過 Colossal-AI 了。」

潞晨科技此前為什麽能盈利?原因有兩點。「一是潞晨的價格比其他公司便宜,二是潞晨不單單提供大模型的構建能力,還提供底層 AI Infra 的訓練能力。」知情人士向 AI 科技評論分析。

下半場的發展機遇

發展至今,「百模大戰」已然步入下半場,但軟件在中國的商業化依舊是行業待解的「難題」。

不過,袁進輝始終抱著樂觀的心態:國內軟件商業化的道路並非不存在,只是現在還沒有人摸索出來一條清晰可行的路徑。

目前,從行業共識上來看,基於軟件做產品和商業模式上的探索,需要將軟件和使用者不得不付費的東西結合在一起才可行。

基於此,訓推一體機和將軟件與雲、算力繫結兩種方式,成為了矽基和潞晨不約而同的選擇。

一體機的路線已經被驗證過,是行得通的。

就當下情況來看,在國內如若只賣「鏟子」,很多廠商不會買賬,最好的解法便是將訓練與推理做成一整套工具箱,再配合大模型去賣。

國內客戶偏好為軟硬一體付費,沿著這條路徑比單賣軟件情況會好一些,雖然從整體毛利來看,硬件占比居多,但對軟件的售賣是有益的。

這也同潞晨科技的轉型思路不謀而合——僅靠單一的訓練工具提供,就算效能再強大也不足以站穩腳跟,去年底,潞晨也嘗試推出了訓推大模型一體機,為客戶提供整體的大模型訓推方案。

值得一提的是,乘著 Sora 的「東風」,潞晨科技進一步拓展了業務版圖,正式入局了文生影片大模型。

今年3月,潞晨科技宣布推出開源類 Sora 架構多模態影片模型——Open-Sora,一經推出便得到業內諸多關註,搶占大波市場熱度。

據其稱,Open-Sora 能夠降低 46% 復現成本,並將模型訓練輸入序列長度擴充至 819K patches。

7 月,Open-Sora 最新開源的 1.2 版本已經可以單鏡頭生成最長 16s 的 720p 影片。

為了與 Open-Sora 實作互動,潞晨科技還提供了可以自行一鍵部署的 Gradio 套用。Gradio 作為一個 Python 包,允許開發者透過定義模型的輸入和輸出,自動生成一個網頁界面。

潞晨科技推出的 Open-Sora

英雄所見略同,矽基流動也入局了一體機。

不過,在方式上還是和潞晨科技存在些許差異。矽基流動在大方向上的選擇相對容易——直接和他人合作做一體機,主打在伺服器廠商做一體機時,將產品整合進去再讓廠商付費。

同時,矽基流動本身也還未公開推出過大模型。

袁進輝曾向 AI 科技評論分析,「現在模型逐漸收斂,其實大家的模型結構幾乎一樣了,所以我們的新業務不追求非常通用的模型,重點就是支持經濟價值、商業價值最大的模型。」

在大模型 API 雲服務平台 SiliconCloud 上,其文生影片所采用的是智譜的開源 AI 影片生成模型 CogVideoX-2B。文本對話、文生圖、圖生圖等其他多種功能,也均采用包括Llama3.1、 Qwen2、GLM4、DeepSeek、Flux.1、SDXL、PhotoMaker 等在內的主流模型。

SiliconCloud 文生影片功能頁

這也是矽基流動基於雲實作盈利的一套思路——推出大模型 API 按需付費的模式,無需租用雲資源並下載模型而直接使用 SIliconCloud API,助力開發者加速開發生成式 AI 套用。

目前,海外各個 AI Infra 公司都能夠透過雲來盈利,照觀國內,這條路徑也存在一定可行性。

無論是在公有雲還是私有雲上,一切都與算力掛鉤,所有做產品或套用的客戶都要為 GPU、算力、雲付費,因此可以把軟件和雲或算力打包,以服務費用的形式盈利。

沿著這條路徑走,潞晨科技旗下的雲平台——潞晨雲(https://cloud.luchentech.com),則選擇了開展算力租賃業務,在此基礎上輔助模型訓練、微調、推理加速。

潞晨雲所提供的服務

止於此不難發現,前述解法的核心均是推理引擎。

當前,訓練的「天花板」在整個行業的推動下已經明確,而推理的實際水平與理論水平間仍存有較大差距。

舉例來講,大模型訓練的算力利用率MFU理論上最多為 60% 左右,而當前輝達等企業透過聯合最佳化,能實作 40%~50%,可提升空間僅剩下 10%~20% ,但推理的提升空間至少是十倍。

從成本方面考慮,訓練大模型在資金、GPU 等方面的高門檻,讓對口的公司屈指可數,並且客戶集中、議價能力很強,創業公司的商業化並不好做。與之相比,有龐大的算力不是進入推理Infra領域的前提條件。

此外,訓練有階段性限制,數據集較為固定,而推理具有持續性,服務上線後數據是無止境的,只要使用者使用便不會停止。以 OpenAI 為例,在推理階段,其一天能生成 1-2 萬億 tokens,一周生成的數據量就能超過訓練的數據量。

最關鍵的一點在於,想用大模型不一定要訓練,但都要推理,這意味著推理的市場更分散、更大。

而在推理需求逐步上升的當下,縱觀全球,較為主流的推理引擎包括輝達的 TensorRT-LLM 和柏克萊大學開源的 vLLM 兩種,海外許多 AI Infra 公司都在二者的基礎上進行最佳化。

潞晨科技堅持早期聚焦訓練時期的創新思路,選擇了基於 Colossal-AI 框架進行研發叠代。今年 5 月,其開源了針對最新 LLaMA-3 模型的推理加速方案,對比主流 vLLM 框架吞吐量可以提高 40% 以上。

除文本生成模型外,Colossal-AI 的推理框架還支持了包括Stable Diffusion3在內的多種影像生成模型的最佳化。矽基流動則在挑戰框架大廠方面「野心」尚存。

區別於 oneFlow 時期以通用訓練框架為主,服務深度模型的生產,矽基流動將重心放置在推理層,服務大模型套用。其所推出的推理框架 SiliconLLM 作為從頭搭建的第三套系統,完全獨立於 vLLM 和 TensorRT-LLM 兩個主流框架之外。

矽基流動官網 SiliconLLM 與 vLLM 和 TensorRT-LLM 的效能比較

對此,袁進輝曾經在采訪中坦言,「推理框架是兵家必爭之地,大家都有掌控它的願望。在做矽基流動之前,我們的競爭對手就是這些搞框架的大廠。」

而現階段,如若要搶占推理市場,先在海外打響名堂則是矽基流動綜合判斷後的第一選擇。

對比 oneFlow 最初便開源,矽基流動在開源版之外,推出了付費版本以實作收費方面的突破。

早期,矽基流動主要推廣大模型推理引擎,由於海外的付費習慣、商業模式都較為成熟,推廣也相對更容易。

在海外,已經有了一套為訂閱軟件付費的成熟方法:使用者透過信用卡每個月繳費後,後台系統就會自動發送軟件,告知如何進行後續操作下載安裝。在國內與客戶合作卻只能走不可持續的專案制。

而國內的付費習慣則受到會計體系的影響,企業很難給無實體的軟件定價——國內財務做預算制,會采購固定資產,而軟件通常作為服務而非固定資產。

同時,國內即便是市場化的企業,也更傾向於提前定價,偏好一次性買斷。海外則不習慣預付,更偏向於「用一付一」。

此外,國內由渠道決定銷售,僅做出引擎還不夠,得是產品形態,所以在國內需要消耗產品商業化探索的資源。而海外優先考慮產品力,做出全球有競爭力的產品在海外就能賣。

對於矽基流動而言,初期形成商業閉環,見效比較快的也是海外,過去已經把模式走通了。

「現在幾乎每天都有老外的郵件過來洽談,網站解釋了是怎麽收費的,但還是有其他問題需要洽談,他們也會問願不願意用其他方式,總之合作挺多。」袁進輝曾對 AI 科技評論介紹。

但是,開拓海外市場也意味著要有比在國內更強的競爭力,是機遇,也是挑戰——美國在 AI Infra 的每個細分賽道都有非常強勢的公司,移動端部署有 AutoML、雲端推理服務有 TogetherAI、FireworksAI、編譯器有 ModularML 和 TVM、硬件加速有各種不同的 MPO 公司。

單就推理框架方向來看,也需要與包括陳天奇的 OctoAI 、賈揚清的 Lepton AI 等在內的一眾創業公司展開競爭。

近期,在海外跑出名堂後,矽基流動也優先在國內上線了 SiliConCloud(https://siliconflow.cn/siliconcloud),並且收獲了較為不錯的增長勢頭,日Token生成量達上百億,目前已在海外「登陸」。

而對於潞晨科技而言,一直以來都主要采取對海內外業務場景因地制宜、同步發展的戰略,在國內外積累核心客戶案例和使用者口碑。

首先,基於開源社區被動獲客的性質,潞晨科技在海外不太需要主動拓展市場,當前在中國、歐美、中東以及東南亞都有客戶。

從國內來看,潞晨科技目前以傳統行業客戶為主。在尤洋看來,傳統的車廠、藥廠、石油公司、金融機構是有長期付費意願的。最終,AI 要實作落地,傳統行業是不可或缺的套用場景。

去年底開始,潞晨科技也與華為達成了合作。

今年 2 月,二者正式合力推出⼀體化的 AI 開發和部署平台——ColossalAI Platform 以及潞晨昇騰訓推一體機,以賦能傳統企業在本地透過私有數據訓練、微調私有垂類大模型。

根據潞晨官方測試,ColossalAI Platform 能輔助大模型預訓練成本降低 50%,基礎設施成本降低10倍,硬件需求成本降低10倍,專案上線時間縮短10倍。雷峰網雷峰網