大企业动向,也是行业重要指向。
在华为全联接大会2024上,华为推出了一系列行业智能化创新产品和解决方案,其中推动AI技术与行业场景深度融合、促进人才培养、构建更完善的数智生态体系等,是众多信息背后的重要表述。
加大与高校合作,是这一生态体系中的核心环节之一。华为通过「智能基座」、鲲鹏昇腾产教融合基地、鲲鹏昇腾创新大赛、鲲鹏昇腾科教创新卓越中心,与高校开展了一系列合作,培养原生卓越人才,激发计算产业创新。
科研正进入「第五范式时代」,AI技术驱动科研的效应愈加迅猛,推动新的科技革命「呼啸而至」,其中科研的生产力已实现进化,生物学、医学等学科领域,有了触及更多秘密或隐秘的可能,而生物医药、硬件、工业制造等领域的产业模式也将改变。
以AI为内核,高校、企业在新科技革命中的角色关联更加交杂,推动人才与算力的循环跃升,不仅正对高校科研的未来进行重塑,也将带来全新的科技比拼与进化历程。
AI重塑高校科研的未来
AlphaFold的问世与进化,为理解AI重塑高校科研的未来,提供了鲜明注脚。
2020年,DeepMind(谷歌旗下的人工智能企业)推出的人工智能模型AlphaFold在一场名为「蛋白质结构预测关键评估」的竞赛中占据优势地位,揭开了堪称蛋白质3D结构预测的历史新篇章。
今年5月初,进化迭代后的AlphaFold 3,以前所未有的精准度成功预测了所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用。
一个直观通俗的对比是,在AlphaFold出现前,蛋白质结构只能通过X射线晶体学或冷冻电镜等实验技术来破译,耗费数月或数年、数十万美元,才可能解析一个蛋白质的精确三维结构。而AlphaFold2成功预测数亿个蛋白质结构,只用了不到三年。
AlphaFold改变了生物学,在国内外高校科研中皆有表现。
根据公开报道,首尔国立大学计算生物学家Martin Steinegger领导的团队,使用了一种名为Foldseek的工具,在AlphaFold数据库中寻找导致新冠肺炎的病毒SARS-CoV-2的RNA复制酶的亲属。
这项研究发现了之前未被确认的、病毒可能的古代近亲:包括黏液霉菌等真核生物中的蛋白质在其3D结构上类似于被称为逆转录酶的酶。
公开信息显示,在国内,AlphaFold的问世,也为上海交通大学自然科学研究院&物理与天文学院&药学院特聘教授洪亮开启 AI 蛋白质设计研究提供了契机。
2021 年,洪亮及其团队开发了一套基于预训练的蛋白质设计的通用人工智能AccelProtein™ ——与 AlphaFold 预测结构不同,AccelProtein™ 开创性地实现了从序列直达功能的精准蛋白质设计。
该大模型的优势表现之一是,利用小样本乃至零样本学习方法,提高大模型的工程泛化能力,帮助它在仅有少数湿实验数据的情况下实现蛋白质性能优化,极大地提高了蛋白质设计的效率——以往需要 2~5 年才能完成的项目,在 AccelProtein™ 的支持下只需要 2~6 个月即可完成。
窥斑见豹。在深度学习与人工智能等结合进化下,AI对科研路径、科研效率带来实质助力,也带来更多创新可能,进而也对科研人员的生产力带来变革影响。
其背后逻辑包括但不限于,AI技术带来数据处理与分析的自动化,实验设计与执行、科研辅助工具、科研合作的智能化等,在人类已积累沉淀的庞大知识图谱体系基础上,筛选、整合、分析,一方面给科研人员带来一定程度上的「解放」,让其相对有限的智力、体力用于更核心的研究上,另一方面提供更多创新的研究思路。
以一个科研的完整链路来说,从提出问题,到搜集与处理繁复冗杂的数据、多方向科学计算模拟、理论论证及辅助证明,再到论文成稿,AI技术都可以深度参与其中,提供必要帮助。
参考公开信息显示,2023年12月 DeepMind 推出全新多模态 AI 模型 ——Gemini,其可根据提示,在一个午休的时间内阅读 20 万篇论文,并从中筛选出 250 篇特定有关论文、提取数据,进而绘制表格或图片提供给使用者,极大提高科研人工作效率。
林新华 上海交通大学网络信息中心副主任(左)
王均松 华为昇腾计算系统实验室主任(中)
占杰 华为计算产品线高级战略规划(右)
华为昇腾计算系统实验室主任王均松认为,AI技术的出现,相当于科研人员多了一个同行,比如AI大模型,科研人员可以跟AI对话,包括具体科研的下一步应该怎么走,AI可以用它自己思维的方法生成给到一些思考,能够快速促进科研创新的过程,「我觉得这个可能是未来一个更重要的方式」。
对学科与科研广度、人才密度都相对突出的高校来说,前述AI的价值空间、影响场景与路径等,表现也更突出。
2024年6月,上海交通大学与华为合作的「上海交通大学——鲲鹏昇腾科教创新卓越中心」正式揭牌成立,双方目标之一是其能够成为华为和上海交大共同推动中国智能化发展的生态平台,让鲲鹏昇腾的技术能够更多的赋能上海交大的各类交叉学科创新,这些创新又能成为牵引各行各业智能化发展的核心动力。
公开信息显示,上海交大现已成功建成国内高校第一个也是目前规模最大的鲲鹏高性能系统,持续为相关学科提供科研算力服务。
可发现,在当前AI技术与科研结合中,高校的角色更深层次化:既是直接的受益者,科研工作流程、科研效率由此而变,具备了科研成果的诞生快捷化、丰富化及更快迭代的可期性,AI正重塑高校科研的未来图景;也是新的AI技术策源地和创新高地,科研场景、人才的密度,以及多学科跨界融合的空间及必要性,为此提供了更多可能。
而这也是未来AI与高校科研互为循环要素的走向之一。
科研进入「第五范式」时代
从AI for Science(简称「AI4S」)字面意思来看,即「人工智能驱动的科学研究」,在科研中,AI将继续作为「驱动力」,这一趋向会更明显,推动科学研究进入「新范式」时代。
美国科学哲学家托马斯·库恩在其名著【科学革命的结构】中曾首次提出术语「scientific paradigm」(科学范式),主要指的是各个学科在一定历史时期形成的对某种专业知识的见解与共识。
关于科学研究的四个范式有一个较宽泛的概括,几千年前是经验范式,靠的是观察和归纳的实验研究;几百年前是理论范式,基于科学假设和逻辑演绎的理论研究;几十年前是计算范式,十几年前是数据范式,特征是数据密集型科学研究。
而今,科学研究进入「第五范式」,基本成为共识。
中国工程院院士李国杰曾撰文称,现在还很难对第五科研范式做出严格定义,但已逐步显露的特征有六点,包括但不限于人工智能全面融入科学、技术和工程研究,知识自动化,科研全过程智能化,以及人机融合、以复杂系统为主要研究对象,跨学科合作,更加依靠以大模型为特征的大平台,科学研究与工程实现密切结合等。
上海交通大学网络信息中心副主任林新华表示,AI4S的部分现状趋势体现在AI与计算流程结合更紧密。起初,AI作为一个单独的程序,单独训练、单独推理,与科学计算结果对比;现在,AI逐渐融合进一个学科的计算流程之中,作为计算方法的一部分;未来,随着AI的可解释性和可观测性加强,人们又从中发现新的科学规律,探索出新的科研范式。「AI4S囊括了迄今为止所有的AI网络、训练方法,并且还有新方法在不断被发现。」
AI技术的政策及舆论风向也走向积极,AI技术与科研的结合,进入一种相对更乐观的科研语境中,高校迎来更多新的尝试机会。
参考公开信息,研究人员在【英国医学杂志】(The BMJ)上发表的相关报告显示,截至2023年10月,全球百强科学期刊中有87家就人工智能生成内容的使用向作者发布了指引。
2024年1月,全球知名学术出版机构Elsevier与学界合作开发,隆重推出全新的AI工具——Scopus AI,将世界上最大的科学文献数据库与可靠的AI相结合。
这一工具也于2024年三四月,在厦门大学、中国科学技术大学、南方科技大学等国内各大高校中陆续开放使用。
不过,AI4S对高校科研带来的机遇空前,挑战也甚巨。
比如AlphaFold3 预测的蛋白质等结构也并非完美,其中多蛋白如何形成复合体,如何与 DNA、RNA 或者小分子交互等,依然还待进一步探索。
中国科学院院士鄂维南曾在一次讲座中表示,随着AI for Science的发展,科研模式也从作坊式改变到了安卓式,其将依赖于四大基础设施:基于基本原理的模型和算法,高效率高精度的实验表征方法,数据库和知识库,高效便捷的算力资源。
林新华也提到,AI虽帮助突破科研瓶颈,但对科研团队的「硬+软」实力提出了更高要求。硬实力包括算力、资金、人员规模,软实力包括交叉学科合作、数据积累等。
校企合作成为突破口之一。
以华为为例。2022年,华为发布科研创新使能计划,该计划通过技术扶持和赋能、资源支撑、行业影响力构建三大维度给予支持,旨在使能国内高校和科研院所依托华为全栈自主软硬件平台开展科学技术研究和软件研发与技术攻关工作。在技术扶持和赋能方面,将获得技术专家的专项支持,且优先获得与华为的技术联创机会;受邀参加由华为主办开发者活动,与行业技术大咖、专家学者、华为计算高层面对面共论人工智能生态; 在资源支撑方面,该计划将从创新基金、学习资源、权益服务上提供服务,让科技工作者们能够把更多时间和精力投入在科研创新上。 在行业影响力构建方面,将优先受邀作为演讲嘉宾参加由华为主办的重要产业活动,为科研工作者提供更多沟通交流机会。
华为未来将继续聚焦科研院所、国内高校等科技工作者的智慧,不断释放AI力量,加速科研创新,推动生态繁荣。
新科技革命蓄势将至
AI4S的发展,关乎到科研整个链条的重塑,以及相关产业链的研发、实践落地,实质可以理解为一场科技革命。
早在2017年7月,国务院印发【新一代人工智能发展规划】,对人工智能发展、科技创新等,做了顶层擘画。围绕人工智能及其关联的更宏阔的技术、产业发展与竞争,也早已开始。
有研究报告认为,当前中国人工智能人才、投资、技术、AI论文、算力等核心指标,第一次与美国一起位列第一梯队,其中美国大模型(包含同一企业、同一模型的不同参数版本)数量为世界第一(占比44%),中国位列其后(占比36%)。
不过两国间的差距依然存在,但有专家和企业家认为在呈现逐渐缩小的迹象。
马斯克在2023年5月的一次访谈中提到,美国具有最先进的人工智能,中国紧随其后。当然,中国有资源去规模化和优化人工智能。人工智能最大的单一进步仍然来自美国和欧洲。
他认为,中美之间的人工智能发展的确有差距,这个差距看起来在12个月的数量级上。而关于差距是在缩小还是扩大,他表示这很难判断,「我怀疑它会在一定程度上缩小」。
高校、企业、科研机构成为其中比拼的关键要素,人才、科研自主或原生创新的能力,又是其中核心。
林新华透露,由上海交通大学「交我算」团队与生物信息学领域师生合作开发的ParaFold,作为致力于提高蛋白质结构预测效率的开源工具,对AlphaFold的CPU+GPU计算进行了高性能计算方面的深入优化。其更快、更省钱、更省GPU机时,被牛津大学、康奈尔大学等高校使用。
这部分证明国内智能化科研具备了一定的走出国门的自主创新能力。
而从CUDA(英伟达旗下的并行计算平台和编程模型)迁移到CANN(华为针对AI场景推出的异构计算架构),从国外平台多国内自主适配平台的演变,这一方向已验证可行,也意味着我国发展自主平台的必要性。
有观点认为,CANN的成功不仅取决于其自身的技术实力,生态建设亦是关键。为推动CANN发展,华为等企业已与多个科研院校合作,共同改进技术,包括与高校、产业界等构建更先进的人才体系、数智生态。
前述华为与高校共建的鲲鹏昇腾科教创新卓越中心/孵化中心,是生态建设中的核心一环,其共同基于鲲鹏昇腾计算平台进行科研创新和卓越人才培养,孵化引领世界的研究创新成果。除上海交通大学外,华为还与清华大学、北京大学、浙江大学、中国科学技术大学达成合作。
在2023年9月,华为还宣布将携手教育部和72所试点高校,共建数智人才新生态。
华为计算产品线高级战略规划占杰认为,高校有人才,企业有算力,两者结合能够走向一个更加完善的生态体系。
这一生态的价值之一,将是算力进阶及其格局变化趋势更显性、更实体化。
华为也有了更新的动作。
在近期华为全联接大会2024期间,华为全新发布CANN 8.0,新增200多个深度优化的基础算子、80多个融合算子、100多个通信、矩阵运算等API,典型融合算子开发周期从2个月缩短至1.5人周,加速原生创新。
华为常务董事、ICT基础设施业务管理委员会主任汪涛在大会上透露,未来三年,华为每年将投入10亿元来加速鲲鹏昇腾原生应用生态发展,目标发展超过1500原生应用伙伴,基本实现全行业全场景的应用原生。
用占杰的话来说,目前AI能力遇到了一些阶段性的局限,但正在被突破,未来如果AI能够自己反思,或具备了多轮思考能力,那么整个应用创新的风口才刚刚开始。
这也将是华为正完善的数智生态体系可预期的部分重要价值所在。