来源:真格基金
推理成为下一「战场」,AI Infra 创企「淘金」视频大模型。
作者|朱可轩
编辑|陈彩娴
作为 2020 年全球高性能计算领域在 Google Scholar 上引用次数最高的博士毕业生,尤洋曾被 UC Berkeley 提名为 ACM Doctoral Dissertation Award 候选人(81名 UC Berkeley EECS 2020 博士毕业生中选 2 人)。
同时,他也是世界上唯一一位 35 岁以下在 4 个顶会(AAAI, ACL, IPDPS, ICPP)上以领导者的身份(第一作者或通讯作者)获得 Best Paper/Distinguished Paper 的人。
2021年 7月,尤洋创立潞晨科技,转眼间,已经走进第三个年头。而经过三年时间的沉淀,投资机构对潞晨的估值增长了 40 倍。
在向 AI 科技评论谈起商业上的目标时,尤洋表示,「我们要把潞晨的市值做到 200 亿到 300 亿这个量级,然后上市。目标非常量化也很明确,就是达到 20 亿的收入。」
回望这些年,为了适应 AI 时代对于基础设施的需求,潞晨在战略上也进行了许多调整。
随着大模型的发展重心由 Pre-training 逐渐转向 Post-training 和 Inference,去年年底,潞晨正式开始布局训推一体机。
同一时间段里,尤洋和团队也意识到了虽然作为基础设施中间层的公司,但自身也是需要有一定模型能力的。于是,今年 6 月,潞晨自研并发布了全球首个开源类 Sora 架构视频生成模型 Open-Sora。
谈及这方面的布局,在尤洋看来,「如果不去做一个自己的优质大模型的话,那推理平台上其实是没有优质资源的。」这也是潞晨有竞争力的点所在。
不过,最关键的原因还是在于,「视频大模型还处在 GPT-1 时期,而发展到 GPT-4 之时,对算力的需求要求会是最高的,这是 AI 基础设施公司最容易产生大价值的方向之一。」尤洋这样向 AI 科技评论解释。
视频大模型和训推一体机是潞晨目前在推理方面的两块重点布局方向。而在把 Open-Sora 做成一个爆款之前,由于还是需要依赖开源模型,训推一体机则是潞晨的首要发力点。
除此之外,「生态」是尤洋对外多次提到的核心关键词。他坚持认为,「AI Infra 创业公司的长期壁垒就是在于生态,如若连生态都没有,将会很难与巨头对抗或是共存。」
目前,潞晨是世界上唯一一家有自己独立开源生态的 AI Infra 创业公司,开源社区大概有 4 万到 10 万这个量级的开发者在深度使用潞晨的产品。
以下是 AI 科技评论与尤洋的访谈实录,作者进行了不改原意的编辑整理:
1
长期壁垒在于生态
AI 科技评论:潞晨成立至今已经有三年了,创业这三年来,您觉得和做学术相比会不会更艰辛?有什么心得体会可以分享一下吗?
尤洋: 我觉得要成为杨振宁还是马云,其实二者可能不能直接相比,他们的成功都不会太容易,这是我的一个基础看法。对于我个人而言,我现在还年轻,今年才 33 岁,所以还是有很大探索空间的。
我目前没有感觉到难度,当然我不是说我很厉害,我的意思我给自己定了一个比较合理的目标,如果我要是现在就想五年之内拿诺贝尔奖,这简直天方夜谭,或者我五年之内把公司做到英伟达那样的市值,也不太可能。
其实我觉得这个东西难易还是分人,当然首先是每个人基于自己的水平状态设一个合理的目标,由于我设的目标还算合理,所以我现在倒没有感觉到太艰辛。当然有很多人的 Google Scholar 引用数比我多很多,还有一些人公司的市值,比如说国内这几家大模型公司肯定都比我们高,我觉得还是给自己一个合理的定位。
而我目前的定位,学术方面就是做出有影响力的工作,商业方面就是要把潞晨的市值做到 200 亿到 300 亿这个量级,然后上市,我们的目标非常量化也很明确,就是达到 20 亿的收入。
AI 科技评论:看到官网介 绍,潞晨在 GitHub Trending 开源社区热度榜世界第一。Colossal-AI 和 Open-Sora 均多次登上 Github 全球榜单第一,目前你们开源社区的开发者大概有多少呢?
尤洋: 我们开源社区的开发者大概有 4 万到 10 万这个量级在深度使用。
Github有周榜和日榜,我们好像上过三次周榜,七八次日榜,就相当于如果上了日榜的话,今天就是全世界最受关注的开源项目。当然我不能说我的产品是世界第一,我觉得在大模型训推软件方面,Pytorch 肯定是毋庸置疑的世界第一,我觉得我们是除了Pytorch之外比较有影响力的,当然跟 Pytorch 差距还是很大。
AI 科技评论:开发者使用潞晨的产 品有遇到过什么难题吗?你们是怎样解决的?
尤洋: 我们的开发者大体而言,第一类是偏科普,第二类就是平衡定制化需求是不是足够通用。
首先,因为好多人是不断切到大模型这个赛道里的,他们没有相关背景知识,使用之时如果连背景知识都没有,就像是我们做的是专业挖金子的东西,他连这些金子在哪的基本常识都没有,那他们肯定会遇到一些困难,所以我们需要做一些科普型工作。
然后,对于专业的开发者而言,他们也用过 DeepSpeed、Megatron,甚至想自己写框架,这种深度使用者往往有一些偏定制化的需求,这一点我们需要权衡一下,因为我们是通用的工具,我们可能为了一些用户把它改成一个特别小众的工具。这两类用户都可能给我们提出一些很有效的建议,我们进一步改进。
AI 科技评论:开 源社区应该是潞晨比较重视的部分。
尤洋: 我觉得 AI Infra 创业公司的长期壁垒就是在于生态。
这一波 AI 可能才两三年,还看不出究竟谁能够成下一个巨头,那可以看一下上一波的 AI 基础设施公司,其实就是大数据,从 2010 年到 2020 年这十年之间可能最成功的就是 Databricks、Snowflake,他们的策略还是要跟用户生态去绑定。
这就是为什么 Databricks 要构建它的 Spark 生态,也是做了一个很大的开源社区,然后前两年是主要培养开发者,开发者逐渐融入到各个行业之后,给他真正带来一些客户、收益,才能不断把这个做起来。
否则如果作为基础设施公司连生态都没有,就很难跟大厂去对抗或者共存。确实 AWS 也尝试做着开源生态,但是大厂也不一定很擅长,这也是他们允许类似于 Databricks 这样的公司分一杯羹的原因所在,当然他们是共享营收的。
我们在海外市场的竞争优势也是在生态上,我们是世界上唯一一家有自己独立开源生态的 AI Infra 创业公司,这一部分用户是我们的忠实用户。
AI 科技评论:那潞晨 现在会和云厂有竞争吗?
尤洋: 我们和云厂没有竞争关系,尤其是在中国就更没有了。我可以说一下中国的实际情况,就是中国的云厂商实际上没有高端算力,因为要比较严格遵守美国制裁。而我们现在做的主要是把中国民间已有的合法高端算力,聚集起来形成一个块,或者在厂商内部提供服务,意思就是厂商内部可能买了A100、p00,我们进一步给他们服务。
AI 科技评论:你们现在的 重心实际上也不是大模型公司。
尤洋: 我们是有跟大模型公司合作的,但是目前更多的是跟一些微调的公司在合作。
我可以解释一下 Pre-training、 Post-training 和 Inference,我觉得 Pre-training 的话肯定是大模型公司比较喜欢做的,但是他们由于融资额比较高,就像我没听说过 Together.AI、 Lambda Labs 有机会去服务 OpenAI,要想服务 OpenAI,必须得像微软这样的体量。或者像马斯克的大模型公司,不要供应商,自己弄了 10 万卡集群。
不管是美国的大模型公司,还是中国的大模型六小龙,他们要自己去建自己的基础设施,不然就是被大型云厂服务,创业公司根本切不到这一块蛋糕。我们也收到了一些大模型公司的客户,但并不把他们定为我们的战略重要目标,只是通过跟他们合作看看有没有需要我们补的技术点。
我们目前收到的收入,主要来源于一些 Post-training,就是预训练之后的 training 阶段的公司,比如说车厂、药厂、石油公司、金融机构。他们有数据隐私的需求,然后又没有大规模集群,可能最多买了千卡,但他们对效率要求也很高,实际上也是在做内部业务的大模型的。
2
推理层面的价值点
AI 科技评论:潞晨现在自己也入局了大模型,发布了类 Sora 架构视频生成模型 Open-Sora,国内其他 AI Infra 的厂商好像都没有下这一步棋。你们的初衷为何呢?
尤洋: 因为未来两三年视频生成大模型发展空间是最大的,对算力的需求也是最高的。当然,我的意思是如果视频大模型也发展到 GPT-4 这个层面,今天 OpenAI 说视频大模型只是在 GPT-1 的阶段。
当前,视频大模型还很小。比如说,我想生成一个 720P 清晰度的视频,并且还是用不大的模型的话,就需要一台机器八卡,大概 1 到 4 分钟才能生成。由此可见,这种级别的扩展对 AI 基础设施功力的优化是需求最高的。
第二个原因是我们在实际服务的客户里面,也真实遇到了一些客户有这样的诉求,他们确实是希望基础设施厂商能提供一个很好的视频大模型模板,方便他们在行业落地。
其实可以看一下目前做基础设施最好的公司,Together.AI 是不错的 AI 基础设施公司,他们通过服务视频大模型公司 Pika 积累了很多宝贵的产品经验,同时收获了营收,基本相当于做了视频大模型布局。然后 Lambda Labs 平台上的乐高是基于潞晨 Open-Sora 做的,他们也在做类似的布局。
但归根到底,我们做这块的初衷还是觉得视频大模型对算力的需求要求比较高,这是 AI 基础设施公司最容易产生大的价值的一个方向。
为什么我相信视频大模型比LLM更可能有长期scaling law?因为视频大模型的训练数据就是客观世界的真实写照,数据的最终制造者是造物主,大模型完全可以发现其内在的规律。LLM的训练数据是互联网和书籍,数据制造者的水平参差不齐,而且有很多歧义和垃圾信息。
每个人从出生开始,并不是每时每刻都在阅读文字,但无时无刻不在接受视频输入,甚至文字本身也可以作为视觉输入。在婴幼儿时期,人类不识字却能发展出智能,这都说明了视觉信号本身足以scale。且视觉中的各式各样的物理规律,也需要scale到一定规模才有可能精确掌握。
AI 科技评论:那 Open-Sora 和目前市面上其他采用 Diffusion Transformer(DiT) 架构的视频生成模型相 比,差异化优势具体体现在何处?
尤洋: 我们的最大优势在于 id 一致性。
有一些商业客户在用我们的 feature,虽然没发到 Open-Sora 里,因为可能短时间内真的能够变现的话,就是面向视频制作者、电影制片人等等,这种情况下,里面人物的一致性还是比较关键的。
比如说,我能不能在我导师女儿生日的时候,给她生成一个专属的小电影,我们的 Open-Sora 在内容上就是强调 id 一致性的,这块我们也下了很多功夫,虽然没有开放。
近期,我们也打算把它拿到我们商业化产品里,在商业化产品发布以后,再看看是不是有必要开源,发布时间大概在国庆节前后。
AI 科技评论:这也是你们在推理这一块的 发力点之一。能否详细介绍一下潞晨的整体推理布局呢?
尤洋: 现在我们其实做了很多推理方案。
第一,就是要把我们的视频大模型做好,要上线、有服务,这对我们的锻炼价值还是非常高的,确实真正有人在用,我们也会努力把视频大模型的推理速度优化到极致。
第二,我个人对于 AI Infra 创业公司做 MaaS 去卖开源模型的 API 有一些顾虑。最开始其实我们也想过这条路,是特别美好,但是这块蛋糕普通人拿不到。比如说,作为 AI 开发者到底是调这类平台的API,还是调月之暗面、智谱、DeepSeek 的API,DeepSeek、通义千问都有自己的 MaaS,感觉这种方式相当于在和通用大模型公司竞争。并且,如果不去做一个自己的优质大模型的话,那推理平台上其实是没有优质资源的。
现在最核心的就是这一块,大模型还在能不能进入别人的生产环节之中被讨论之时,价格和速度是次要的,最重要的是能不能真正产生智能效果,内容生成质量到底如何,现在做推理 MaaS 最核心的是有没有优质资源,这也是现在只有 ChatGPT 能够带来数亿美元收入的原因所在。
所以,我们当前的重点其实是在训推一体机上。因为现在 Open-Sora 显然没有到达一个 superstar 的阶段,我们的影响力肯定还远远不如 Kimi,更别说跟 ChatGPT 比了。在把 Open-Sora 做成一个爆款之前,我们还是要先依赖开源模型。这方面就要想清楚什么时候开源模型对闭源模型有优势,这也是我前面提到的顾虑所在,因为我觉得开源模型在那种情况下相对闭源模型没有任何优势。
什么时候有优势呢?就是能不能把用户的稀有数据去微调一下的开源模型,通过 post-training 把开源模型变成一个用户高度定制化的版本,那这个场景既然是隐私的话,其实就是卖一体机。我们可以把我们训练的基础设施或者软件都弄到一体机里,或者我们的潞晨云上,让客户通过这种方式先微调出自己的定制化模型,然后通过一体机服务内部。
或者他们不愿意买一台机的话,可以上我们的云,把整个机器包下来,我们相当给他们做了一个 serving instance,就像 AWS Google cloud 上每个服务器就要一个 instance,相当于构建了一个 serving 的机器,他们可以快速把自己的模型部署上去,不是调API,而是对模型有十足的控制。
AI 科技评论:潞晨的训 推一体机商业化情况如何了?
尤洋: 已经达到指标了,今年我们在训推一体机上的目标是获得 2000 多万的收入,现在已经快 3000 万了。
AI 科技评论:目前 主要是和华为合作吗?
尤洋: 不止和华为合作,任何合法的华为或者英伟达机器我们都考虑。主要是华为的昇腾 910B 和马上就要发布的昇腾 910C ,加上英伟达的 p0。
AI 科技评论:前段时间听说 你们在谈算力中心落地,这块是有什么样的布局?
尤洋: 因为各地的算力中心,他们的优势是有一些资金,而劣势就是他们的软件,特别是类似于 Colossal-AI,或者训推一体的软件方面积累不是很多,这会导致芯片买过来之后,最坏情况下变成废铁了。
比如说,之前就有个地方政府弄了 3000p 的算力,但是闲置率基本上99%,卖都卖不出去,这样就很不好。他们其实就是希望我们的软件把它优化一下,让这 3000p 的算力真正能发挥出 3000 张 p00 的价值。
AI 科技评论:您觉得潞晨目前 还有没有什么需要补齐的短板呢?
尤洋: 关于短板,去年我们意识到自身是需要有一定模型能力的,所以我们才做视频大模型,这是去年年底我们思考到的一些事情,要想服务好这些公司,得自己先训过模型,如果自己都没训过,他们会不放心把有些项目交给我们。所以训练视频大模型,顺便也是补齐了我们在这方面的短板。
这样的话我们才有资格去服务。现在4 个世界 500 强客户和 7 个世界 2000 强的客户已经给我们付费了接近千万元,是对我们最大的认可。这块也是潞晨比较有竞争力的点所在。
3
海内外的发展机遇
AI 科技评论:那您觉得海内外 AI Infra 目前有什么差异?
尤洋: 国内可能现在由于诸多因素的限制,我感觉没有一个很自动化的产品能够快速跑出来,而且国内由于算力都分散在地方政府的手里,同时高端算力对中国明面上也禁运,芯片层的一些限制导致上层软件目前发展速度没有那么快。海外的话,由于英伟达快速统一了市场,这些公司反而比较好做,基于英伟达再把事情做好就可以了。
AI 科技评论:国内 的痛点也是在这块吗?
尤洋: 国内当前的痛点肯定首先是能不能有一两款硬件迅速整合市场,相当于把 AI 基础设施软件以下的基础设施,也就是芯片层,确实要统一好。不过机遇也是有的,我相信中国的市场比较大,未来不会比美国小。
AI 科技评论:那潞 晨目前在海内外的布局情况如何?
尤洋: 目前我们在海内外没有做严格区分,因为我觉得现在我们还是在产品试错的阶段,从总收入而言,国内可能跟去年的口径是差不多的,而且我们的视频大模型也有海外版的,本身我们也服务了一些海外的客户,然后我们的潞晨云其实也有海外版的,海外客户更容易对这种软件服务付费,所以说目前海内外收入是差不多的。
AI 科技评论:潞晨云的海外 版和国内版用户会有什么差异吗?
尤洋: 国内版的话客户更散,我们发现国内的客户,如果训的模型比较大的话,可能会自己去买服务器,它是真正上云的地方,虽然是数量很多,但是都比较散的,所以我们的最小优化单位是一张卡。
国外的话相对于而言更整一点,一个公司去采购,也不会去训那么小的模型,所以我们最小优化单位是一台服务器。
AI 科技评论:你们开拓海外市场 会在哪些方面觉得比较有压力?
尤洋: 我觉得小规模的情况下,就比如说我们现在想做到 2 亿人民币这个收入,这个阶段的话还不会有太大压力。不过之后做到 10 亿人民币的话,肯定就会就要引起 CoreWeave、Lambda Labs 等公司的注意了。
AI 科技评论:我记得您之前有提到说潞晨科技 是中国的 Together.AI,产品会有什么差异吗?
尤洋: 最大的差异就是 background 不太一样。
我们是做并行计算的,Together.AI 可能更偏重于算法修改,我们的理念是把训练、推理这些计算改进过之后,它的精度是不会变的,只是改了计算的方式,结果是一模一样的,Together.AI 可能会涉及到一些新的 trick 或者新的方法去平衡精度和速度。