克雷西 发自 凹非寺量子位 | 公众号 QbitAI
人工智能毫无疑问是当今一项重要议题,通过大模型、垂类应用、智能体等多种方式推动着数字经济的发展。
然而,服务AI的基础设施——算力和数据,是限制人工智能发展的瓶颈,也成了进一步讨论的话题。
为什么到现在仍然存在这样的瓶颈?又该如何打破?
我们在成立一年的北电数智所做的事里看到了一些答案——
一座集结了「开箱可用」的国产算力的「AI工厂」,已然在北京浮出水面。
「AI工厂」剑指算力焦虑
无论是对于单一从业者还是整个行业,有效算力的缺乏都是一个亟待解决的痛点。
站在需求侧来看,以大模型为代表的生成式AI蓬勃发展,激烈的「百模大战」,推理时代的即将到来,无疑都带来了巨量的算力需求增长。
中国工程院等十余家机构联名在Science子刊Intelligent Computing上发表的一份报告指出,人工智能所需的计算能力每100天翻一番,照这样计算,预计在未来五年内将增加超过100万倍。
而且,人工智能时代,对算力的需求已经不仅仅是FLOPS的数量,算力需求的结构也发生了很大变化。
AIGC时代,算力的结构形式已经从CPU+加速器转变为以GPU主导的大规模并行计算,智能算力占比快速提升。
但当前,国产芯片,特别是高端芯片,在很多方面与业界先进产品在算力性能、功耗墙、卡间通信速率等存在代际差距。
非芯片因素也在限制着算力的高效利用,如节点间的网络传输能力不足、配套软件生态不完善等等,不胜枚举。
在这样的现实之下,大部分的国产智能算力无法高效利用,催生出了业界对算力的第二重焦虑。
造成这样焦虑的根本原因,在于使用方对多芯特别是国产算力的能力认知不够清晰,可以概括为几个方面:
国内大规模多芯集群能力欠缺,无法支持大规模的、接近生产环境的算力适配、评测。换言之,单芯片测试只能对卡间互联、计算节点间给出预估数据,对于加速比的数据更是却为空白;
现有平台以指数型评测指标为主,不能和用户业务场景进行联系,没有完全打通从业务场景到底层芯片的适配链路,也就是说实际的使用方,无法了解和判断多芯集群是否能够满足自己的需求;
国内缺少多芯异构的服务性平台,也缺少多芯异构、混合训练、推理任务的尝试。
总体来说,需求方不知道供给方能够提供的服务以及对自己实际业务的支持程度,供给方缺乏一个平台来展示自身能力和能够做到的事情,同时有一个公正且清晰的评估和标准。
为了打破这样的认知,破解算力焦虑的迷局,一个名为「星火·智算」的AIDC品牌应运而生。
「星星之火,可以燎原」,选择「星火」这样的名称,是方案提供者希望这一品牌能够以燎原之势,实现全国范围的复制。
提出这一方案的,是北电数智——北京电控旗下一家专注于人工智能的高科技企业。
北电数智认为,算力是人工智能时代一种新的生产力形式:
在农耕时代,大地就是算力;机器时代,电力、蒸汽力就是算力;在人工智能时代,算力就是煤水电一样,是第一生产力的方式。
为了把算力变成电力一样的生产力要素,目光就不能再只做简单的芯片、服务器、机柜的堆叠,而是要从「算力仓库」向着「AI工厂」的方向转型,配备相应的新质生产关系。
这也是北电数智在打造星火·智算时的新思路。
具体来讲,星火·智算一方面通过提供普惠算力,如水电煤般支持人工智能技术的创新和应用。
另一方面,以「AIDC 即服务」理念,提供底座大模型、行业大模型以及一站式工具链等配套服务,让企业可以方便快捷地搭建出想要的应用或者重构现在的产品,实现生产方式的创新。
目前,「星火·智算」品牌的首个标杆项目——北京市数字经济算力中心已经开工建设,未来将作为模板推向全国。
为更好地助力算力升级,北电数智还有两款核心产品,全面向着产业中的算力焦虑出击:
前进·AI异构计算平台,针对当下高端算力资源紧缺局面,配置最符合国内市场需求的多芯异构方案;
宝塔·大模型适配平台,向下广泛适配芯片,使芯片与大模型广泛解耦和适配;
两个产品「一体两面」,从不同的维度解决算力焦虑。
前进·AI异构计算平台作为全栈国产算力迭代验证平台,能够实现多种算力的统一管理与调度,同时首推效果式计费,用户无需掌握底层细节即可按需应用,并实现多种算力之间的平滑迁移。
为了让算力能够更好被运用,星火·智算也通过统一通信、编译优化等技术突破,前进·AI异构计算平台可以让国产芯片性能提升2-3倍,吞吐量提升6-7倍。
在为用户提供算力支持的同时,前进·AI异构计算平台还打造了「芯片×模型×场景」的全新评测模式,帮助打破厂商与使用者之间的信息不对称,助力芯片厂商破局,让国产芯片从「可用」到「好用」。
这意味着,在给用户提供算力支持的同时在推动国产芯片实现全面提升,带来更多的源头算力。
宝塔·大模型适配系统则是赋能模型和应用侧,支持模型部署、管理,做算力的精细化运营管理,进一步向上支撑人工智能应用。
让高质量数据流通起来
如果说算力缺陷是AI大厦上的一朵「乌云」,那么数据上的不足就是当之无愧的另一朵。
北电数智首席科学家、复旦大学计算机科学技术学院特聘教授窦德景的公开演讲表示,数据规模与质量,决定了AI的「上限」——无论是训练还是推理,都需要高质量的数据作为支持。
以Meta最新发布的开源大模型Llama 3.1为例,其第三代模型在超1.6万个p00 GPU上消耗的训练数据量为15T tokens,是第二代的7倍,这也成就了两代之间相同参数规模下的性能飞跃。
在我国,数据供给侧的现状也与算力一样面临焦虑——总量丰富,但高质量数据烟囱林立。
据IDC测算,2022-2027年,中国的数据量规模将由23.88ZB增长至76.6ZB,处于世界一流,但是可获取的高质量语料数据集依然相对匮乏。
在数量已经匮乏的条件下,高价值数据又面临着「供不出、流不动、用不好」的窘境,难以发挥价值,让本就有限的数据资源变得更加紧张。
另一方面,数据的集成化程度也严重不足,大量数据散落在产业侧或垂直系统内,而且未被结构化,无法直接用于大模型训练。
这背后的深层次原因,是缺乏成熟的技术和可信机制来支撑数据的安全,拥有数据的企业「不知、不敢、不能、不会」让数据任意流通,这「四不」的现状进一步造就了今天数据集的短缺,形成了一道死循环。
所以当务之急,就是建立起一套可信的安全的数据机制。
为此,北电数智推出了另一个重要产品——红湖·可信数据空间,让数据要素充分聚集,让场景得以充分开放。
红湖·可信数据空间是围绕「可信」构建的多层次解决方案,旨在盘活数据提供高质量可信数据服务,打造「安全共享、可信流通」的数据环境。
从技术上看,红湖·可信数据空间搭载了可信数据沙盒,利用「逻辑数仓」等技术导入、修改和删除数据,并通过隐私计算+区块链技术,保证数据安全、无泄漏,保证数据的可追溯和透明性,做到「全链条可控」。
这种做法使数据可信、可控、可用、可审计、加密保护,从而创造多方互信、数据流通协议履行的数据共享、应用环境。
有了这样全流程可控的安全措施,才能让数据的拥有者敢于将手中的数据资源投入市场流通,并以点带面地拉动更多的数据拥有者参与其中。
有了前期的数据投入,数据供应的生态也将走向成熟,数据共享的形式也会更加完善便捷,流动的高质量数据将为行业发展注入更多的新鲜血液。
同时,北电数智自身也为行业带来了高质量数据,在医疗、教育、文化等行业布局了垂类模型矩阵,让人工智能企业更好地找到落地场景。
所以,北电数智到底是谁,又是如何孕育出这样一套全面针对人工智能行业痛点的解决方案的呢?
人工智能时代的「发电厂」,产业链的「串珠人」
北电数智,是北京电控集团旗下高科技企业,专注于人工智能,自身定位是全栈AI服务商。
北电数智成立之前,正逢GPT-3.5发布,彼时,新一轮人工智能时代全面开启,AI竞争也正日趋白热化。顺应时代发展与市场需求,北电数智应运而生。
成立之时,北电数智承接的第一个项目就是北京市数字经济算力中心,定位是向公共提供智算算力,实现算力的普惠。
换言之,这个算力中心就像一座「发电厂」,让算力像水电煤一样赋能从基座到应用的完整AI产业分层。
北电数智战略与市场负责人杨震介绍,这是北电数智和数科公司的不同,北电数智的第一要务,是要把人工智能产业支撑起来,让人工智能企业或者个人开发者能够快速使用到人工智能、享受到人工智能。
在整个人工智能产业中,杨震认为北电数智扮演了产业链「串珠人」的角色——如果这个产业链上已经有珠子了,就把它们串上;如果没有的话,就把它造出来。
比如前文提到的对国产芯片的加速、在行业模型垂类模型的布局、可信数据空间,都是这个产业链上的一颗颗「珠子」。
除了提供算力产品,北京市数字经济算力中心还专门设计了交流、展示空间,让处于相同或不同领域的AI从业者碰撞交流,促进更全面更深层次的创新。
未来,这个算力中心中的开放空间还将作为「算力科技公园」面向公众开放,让更多人了解人工智能时代的生产变革之力。
总之,北电数智将以智算中心为支撑,串联起芯片、服务器、大模型、AI应用、产业投资等上下游技术、产品和服务,促进人工智能产业成长和繁荣,并带动区域经济产业升级。
截止目前,北电数智已有AI产业生态伙伴千余家,覆盖了AI辅助药物研发、通用机器人/具身智能、无人驾驶、AI智能体等明星赛道。