莫让大模型应用「堵」在算力门口，上海本土云原生企业发布算力一体化方案

2024-03-31科技

来源：网易新闻

算力、算力、还是算力。不管是大模型应用Kimi助手由于访问量过多而疑似宕机；还是在千帆大模型平台上，大模型API日调用量增长10倍；抑或AI用户想要租用算力需要排队……都在指向一个事实，大量未被满足的大模型应用需求被"堵"在算力门口。

如何破局？在近日举行的2024 DaoCloud AI 算力品牌发布会上，一家坐落于上海杨浦区的本土科技企业上海道客网络科技有限公司，凭借其自主研发的云计算操作系统和GPU算力调度产品，试图给出解决方案。

大会现场，道客与香港科技大学、合肥电信进行了合作签约仪式，未来将共同推动 AI 算力在学术和产业领域的快速落地和共享。

大模型催生云原生高速发展

"大模型对算力的超高需求，使产业解决方案收敛到云原生领域。"道客产品副总裁叶挺说。

上海道客网络科技有限公司成立于2014年，是一家专注于用云原生技术去支撑分布式负载的科技企业，大模型催生出对算力市场的需求，使这家企业进入到快速发展的"第二曲线"。

云原生是一种新型的软件开发和部署方法论，核心是利用云平台的弹性和分布式优势，实现快速部署、按需伸缩、不停机交付等各项功能。当大模型动辄需要上千块卡进行训练时，分布式部署就成了必然选择。

作为链接上层应用和下层资源的中间层，云原生调度能把计算资源提供给所需的应用，而调度水平的高低则决定着资源利用效率。道客在云原生调度方面积累了多年经验，当下，云原生调度领域全球前三贡献者分别是谷歌、红帽和道客。

香港科技大学算力调度算法研究项目组成员徐凯强表示，硬件标称算力与实际系统算力之间有40%-50%的显著差异，这是因为计算调度和通讯过程中的性能损失造成的，这也意味着在不更换设备的情况下有一半算力潜力可挖，他的项目组将和道客在统一调度和异构算力等方向进行更深入的合作研究。

国产算力一体化解决方案发布

想要搭建一个云原生的算力构架很简单，想要真正做到能够支撑大规模高性能的算力分布式平台，难度非常大。据道客首席执行官兼云原生计算基金会全球大使陈齐彦介绍，此次发布的算力一体化方案的d.run，不止GPU芯片的简单组合，而是能够支撑千卡万卡级别的高速互联，并通过软硬协同的性能优化和加速，将GPU资源的利用率更大化，实现算力调度的降本增效。

"简单来说，d.run可以实现在不改变设备数量前提下，通过算法‘挖潜’，提升资源使用效率，从而产生算力增量。让一台设备从产出普通算力到产出高效算力。"陈齐彦说。

"只有将算力变成一种能力，赋能到实际场景中，才能真正加速智能创新。"联合创始人兼首席技术官郭峰说。d.run 的AI生态开发平台，相当于互联网时代的SaaS，覆盖数据准备、模型开发、模型训练、模型部署等环节，通过各种便捷实用的生态产品和开源工具，加速了算力向场景渗透，打造了通往 AI 的最短路径。

猴子无限是道客 d.run 方案赋能的企业之一，也是 AI 开放生态平台的一份子，猴子无限在云原生的高可用环境之上，构建了一套体系化的大模型平台流程，帮助用户更优且更快地构建高价值的 AI 应用。

今年被业内认为是大模型应用快速落地的一年，想要应用落地抢先一步，算力是个不得不考虑的问题，算力服务也在孕育着万亿市场规模的新赛道。

作者：

文：沈湫莎图：受访者提供编辑：沈湫莎责任编辑：任荃