文 | 智能相对论
作者 | 陈泊丞
AI产业链各个核心要素的「含金量」还在不断提升,其中存储的价值就在强势增长。
日前,MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。浪潮信息分布式存储平台AS13000G7表现出众,在3D-UNet和CosmoFlow两个模型共计8项测试中,斩获5项性能全球第一。
且不说本土厂商成功「打榜」的事情,光是MLPerf™ Storage v1.0 AI存储基准测试成绩的发布就释放出不少重磅信息。
MLPerf™是影响力最广的国际AI性能基准评测,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福大学、哈佛大学等顶尖学术机构共同发起,2023年首次推出存储基准性能测试。这是全球首个且唯一的AI/ML存储基准测试,旨在通过准确建模ML工作负载所产生的I/O模式来帮助解决存算平衡问题,为ML/AI模型开发者选择存储解决方案提供权威的参考依据。
现阶段,随着AI产业走向深实,市场既重视存储,也对存储解决方案提出了新的技术需求。以今年MLPerf™ Storage v1.0的评测标准来看,区别去年的v0.5版本,v1.0版本做了诸多技术相关的调整,一方面更注重存储带宽的峰值承载能力,重点考察在满足高性能GPU一定利用率的前提下,存储系统能够为AI集群提供的总带宽和每节点带宽。另一方面则是强化了分布式训练,重点关注每存储节点能支持的GPU数量,从而评估用户的AI存储投资回报。
总的来说,在全球范围内,存储比过去更注重与AI产业的结合与协同,「存力」在AI场景中的价值突显。而以浪潮信息为代表的本土厂商在此次评测中脱颖而出,也说明了中国AI行业的风向同样如此——市场对存储的重视和创新正在加速中国AI的发展进程,让本来就注重应用落地的中国AI产业具备了更完备的核心要素。
AI狂飙,存算协同
今天,人工智能向千行百业渗透,大数据、大模型的相继迸发不断加速智能时代的到来。随之而来的还有万卡算力集群、万亿参数规模的大模型训练。在这个过程中,市场对算力的关注持续高涨,各大AI厂商首要追求的莫过于高效的算力资源。
然而,在算力之外,以存储解决方案为代表的存力也同样深刻地影响着AI产业的发展。存力不仅要提供足够的存储容量,还需要保证高效的数据访问能力。因此,如果存力不足,即便是拥有高性能的计算资源(算力),也无法高效地完成模型训练任务,势必会造成算力浪费。
存力与算力相辅相成,两者之间的平衡至关重要,缺一不可,极大地影响着大模型训练的效率以及AI产业发展的命脉。具体来看,现如今模型训练的数据加载、模型训练过程中的断点续训要尽可能地降低对计算时间的占用,那么存储就不能「掉链子」,必然要提供高效、稳定的解决方案予以支持。
浪潮信息存储产品线副总经理刘希猛在与「智能相对论」交流中提到,「随着算力规模达到千卡万卡规模的时候,其实它对存储的性能要求,访问带宽达到了TB级。在一些小模型的训练当中,对时延的要求更高,存储系统需要提供百万级的IOPS的要求。」
算力的升级带动着存力的进阶,现阶段AI想要跑起来,算力是关键,存力也同等重要。随着AI产业发展所涌现出来的诸多场景问题越来越深入,对存储提出的新要求也更加具体——不管是以MLCommons协会为代表的行业机构,还是以浪潮信息为代表的行业厂商,都在致力于探索更强大、高效并符合AI场景需求的存储解决方案,以让存力跑在前面,协同算力升级,支撑AI产业加速发展。
当AI上演「飞驰人生」
事实上,新的存储解决方案之所以备受重视,其背后意味着整个行业对AI系统性认知越来越成熟。
今天的AI如同一辆高速行驶的汽车,上演着智能时代的「飞驰人生」,而这辆汽车能提速的关键则在于汽车内各个核心要素或子系统的共同驱动。具体来看,数据相当于「燃料」,燃烧充分进而驱动「动力系统」工作,让汽车加速动起来。算力的利用程度则决定了「动力系统」工作的效率,进而影响汽车快慢——这是算力的价值所在。
而存力的价值在哪?在「燃料」与「动力系统」之间,两者如何碰撞出火花,则取决于以油箱、输油泵、燃油轨等核心零部件组成的「燃料供给系统」。在AI产业链中,存储就相当于「燃料供给系统」,而存力的效率直接影响着「燃料」与「动力系统」(算力)之间的转化,就如同汽车系统中油箱是否够大、输油泵是否给力、燃油轨是否通畅等问题,直接决定了汽车的燃料供给情况,影响着汽车的动力大小。
这是一个相当完整的系统,在这个「系统」中,也就是AI场景下,存力所面临的具体需求也将完全不同于传统存储,具体呈现在性能、效率以及韧性三大层面。
一、性能:大存力时代到来,协同大数据、大模型、大算力强势驱动AI产业高速发展。
不管是单独拎出算力与存力的关系来看,或是聚焦AI的系统性认知,都可以看到现阶段存储处于一个「牵一发而动全身」的位置,如同汽车里「燃油供给系统」和「动力系统」之间的关系,存力的大小决定着算力的效率,进而影响AI的发展。
因此,当AI产业高速发展,进入大数据、大模型、大算力涌现的时代,市场所需要的同样是大存力。基于这个趋势,业内正在不断去提升带宽、IOPS,降低时延等,通过这些优化直接提高存力的效率。
其中,基于自研的分布式软件栈优势,浪潮信息就在采用全新的数控分离架构,通过将I/O的控制面和数据面解耦合,实现了分布式一致性等复杂的控制面与数据流直通数据面分离处理架构,解决了分布式存储数据流在节点间流转的转发问题,减少东西向(节点间)数据转发量80%。在本次MLPerf测试中,浪潮信息存储达到120 GB/s的单存储节点的超高性能——如此优异的单节点性能应用到实际AI场景中,将可以为企业客户节省大量的存储成本,从而以更高的性价比让AI充分跑起来。
二、效率:存储与AI产业链主动耦合,其价值定位愈发强调「以大局为重」。
对于存力「牵一发而动全身」的价值定位,浪潮信息分布式存储产品部副总经理安祥文向「智能相对论」提供了更具体的解析视角。他以大模型的训推落地举例,以数据为第一视角讲述了在不同的阶段,存储都将面临着截然不同的工作任务。对比传统的存储,现阶段的存储需要实现以存促算、以存强算的目标,从被动到主动、从分离到耦合,最终综合加快大模型训练的效率。
不难理解,存储正积极融入AI产业链中,其效率提升不只是关注自身,更在于如何全局性地、连续性地推动整个大模型训练甚至是AI产业的加速发展。这种从单节点到整体性的进阶,则需要存储协同好AI场景中各种问题,注重提升整体效率,就像在汽车系统中,驻车后再启动,「燃料供给系统」需要及时地提供「燃料」给「动力系统」以确保汽车能连续地行驶。
在这方面,以浪潮信息为代表的本土厂商考虑到实际落地的场景问题,正通过存储支持文件、对象、大数据等非结构化协议融合互通,全局命名空间等方式,从而减少多份数据重复存储,以及数据跨协议、跨区域、跨系统调度检索的管理问题,提升存储的全局效率。
三、韧性:存储的地位不断提升,行业创新高度聚焦存力的安全可靠体系建设。
过去,大众对存储的认知可能只是一个U盘,负责存储资料的载体,但是当存储融入AI产业链,其定位在变化,价值在提高,相应的所承担的责任也在增强。存储出了问题,将影响整个大模型训推落地流程,就如同「燃料供给系统」故障了,整个车子都将无法行驶。因此,存储的安全可靠也同步受到市场更大的关注,只有有韧性的存储解决方案才能适应现阶段以及未来高强度、高价值的AI产业发展。
那么,存储的「韧性」应该如何提升?浪潮信息从传统中医理论入手设计保障存储安全可靠的体系,正所谓「上医治未病,中医治欲病,下医治已病」,一方面从网络安全、设备安全、系统安全、管理安全、数据安全多维度构建了存储安全体系,另一方面则是采用可靠性主动管理技术,实现存储亚健康管理,对硬件、网络、系统等进行亚健康检测,确保系统故障可以快速恢复。此外,通过AIOps算法实现容量趋势、性能趋势、SSD寿命、HDD和SDD硬盘故障的精准预测,防患于未然,满足客户AI业务连续性需求。
结语
现如今,AI历经多年发展,已经成长为一个大产业。在这条庞大的产业链之上,核心要素也在不断趋于「大」发展,数据量激增迎来大数据时代,紧随而来的还有大模型、大算力。越来越「大」的发展,让各大核心要素之间愈发协同,存储进入大存力时代,也与大数据、大模型、大算力之间的联系更加紧密。
在这个节点上,行业权威机构开创基准评测,为市场提供参考标准。以浪潮信息为代表的本土厂商不断以优质的产品和解决方案强势打榜,由此可见,不光是存储的含金量在提升,本土AI的专业解决方案也在崛起。
只要以数据、算力为代表的核心要素相关解决方案持续强化,中国AI产业终将「狂飙」起来,上演本土化的「飞驰人生」。
*本文图片均来源于网络