文|李苗 陈斯达
编辑|李然
5月9日,谷歌DeepMind又一次更新了AlphaFold,推出了全新的生命分子结构的预测模型AlphaFold 3。AlphaFold 2 已为「业界最强」,而AlphaFold 3直接将预测范围,从蛋白质结构扩展到大部分生命分子,准确率也提高了一倍。
来源:X
飞跃式的进展,让AlphaFold 3的论文登上Nature头条。
来源:Nature官网
具体来说,这次AlphaFold 3的升级,主要是加入了通过Diffusion Model,以直接预测原子3D坐标的方式搭建模型,成功将AI对蛋白质预测的能力扩展到包括DNA,RNA等领域。 它可以对蛋白质、DNA 和 RNA 等大型生物分子、小分子(也称为配体)、甚至许多药物进行预测。
来源:X
例如,AlphaFold 3成功地预测了冠状病毒OC43的刺突蛋白,预测的结果(绿色和黄色部分)与真实情况(灰色部分)高度吻合。
来源:官方博客
AlphaFold 3对分子复合物的预测:
来源:官方博客
复合物由蛋白质(蓝色)与DNA双螺旋(粉色)结合而成。预测的结果与通过实验艰苦发现的真实分子结构(灰色)近乎完美匹配。
来源:彭博社报道
AlphaFold 3将AI预测生物分子能力的边界大大扩展之后,也为未来基于科研结果的商业化,打开了无限的可能性。DeepMind CEO Hassabis也在接受彭博社采访时称,AlphaFold 3通过加速生物学科研, 将打开超过1000亿美元的药物研发市场。
来源:彭博社报道
他强调: 「分子结构预测需要能够考虑不同生物分子之间的相互作用的能力,这对药物发现至关重要。」AlphaFold 3具备的能力,对设计和测试包括疫苗在内的新药所使用的化合物,具有重要作用。
他预计,未来几年,会有一大批人工智能设计的药物进入临床,为人类的生命健康带来巨大好处。
网友对DeepMind的突破也是惊叹不已,有评论直称此项成果为「上帝之母」。
来源:X
「巨大的进步!癌症都要瑟瑟发抖!」
来源:X
预测效果提升显著,直指药物研发
结构生物学在AI引入之前,只有少数蛋白质的构造被真正研究出来。
在2018年12月,AlphaFold1在43种蛋白质中成功预测25种蛋白质的结构,以最高分赢得第13届蛋白质结构预测技术关键评估(CASP)。AlphaFold 2在2020年的CASP上,以高于90%的准确率,再次将其他选手远远甩在身后。
蛋白质折叠的问题虽然依然未能完全解决,但AlphaFold 2代表的技术进步意味着,与实验室方法相比,计算生物学能产出精确度相当的蛋白质结构预测结果,成本也被大幅压缩。
2023年10月底,Alphafold-latest发布,预测蛋白质结构更准,还在此基础上,将能力泛化到核酸、任意小分子配体等其他的生物分子结构的预测上,这意味着,使用AlphaFold的方法,可以对所有重要生物分子及其相互作用进行原子级精确结构预测。
如今看来,Alphafold-latest正是此次AlphaFold 3的 「预告片」 。
在AlphaFold 3发布后,Hassabis告诉媒体:「生物学是一个动态系统,生物学特性是通过细胞中不同分子之间的相互作用而显现出来的,你可以将AlphaFold 3视为人类朝着(建模)这一目标迈出的第一步。」
而这历史性的一步,依然还是建立在近几年AI领域中最火的Transformer和Diffusion模型之上。
论文内容介绍
论文地址:https://www.nature.com/articles/s41586-024-07487-w
AlphaFold 3是通过设计了一个开创性的构架,将Transformer和Diffusion模型做了巧妙地结合,从而克服了AlphaFold 2的局限性,将蛋白质预测精度进一步提升,同时将预测范围扩大到其他分子上。
来源:官方论文
在AlphaFold 2基础之上,AlphaFold 3改进了底层模型框架,转向「扩散技术」。扩散过程从原子云开始,经过多个步骤,最终形成最精确的分子结构。这一技术被主要用于OpenAI的DALL-E 2 和 Sora 的图像和视频生成领域,原理是逐渐做「减法」——从一张纯噪点图像开始逐渐降噪,直到「雕刻」出准确的预测图像。该方法使AlphaFold 3可以处理更大的输入集。
在底层架构更改的细节上,Alpha Fold 3 简化了遗传特征编码器(MSA module),成对残基关系编码器(Pairformer)也取代了原有的进化特征处理单元(Evoformer),增强了复杂相互作用模式的建模能力。在生成环节,结构生成器可以直接预测原子坐标,比原先以氨基酸为中心的方式提供了更高的灵活性和精度。
效果是显而易见的。AlphaFold3对于蛋白质与其他分子类型的相互作用的预测效果至少可以提高50% ,对于特定类别,预测精度提高一倍。在预测范围上,AlphaFold 3不仅能模拟蛋白质、DNA和RNA这样的大型生物分子,还能处理小分子,例如药物研发中的配体,实现联合预测和研究分子间相互作用。RoseTTAFold2NA只能处理一千个残基以下的结构,而AlphaFold 3可以处理残基倍数于此的结构。
对上千个残基结构预测示意
联合预测模型举例
DeepMind总监John Jumper表示,这标志着模型的 「巨大演变」, 「确实简化了让不同原子协同工作的整个过程。」
虽然准确度大幅提升,「扩散技术」最大的问题仍在于 「幻觉」 ,且其知识范围也局限于训练所用的PBD数据。为了避免扩散方法在一些无结构区域产生幻觉,还引入了一种新的交叉蒸馏方法,通过AlphaFold-Multimer v2预测的结构数据来丰富训练数据,从而降低产生幻觉的可能性。
不再开源,科研的终点是建立商业帝国
2021年7月,DeepMind将AlphaFold 2开源。而目前看起来,DeepMind应该不会公布AlphaFold 3的代码,仅可通过DeepMind网站进行非商业用途研究。
用户可以通过谷歌推出的「AlphaFold Server」来访问AlphaFold 3,不过每天只能生成10次,而且不能生成和制药相关的分子。
来源:官方
而谷歌母公司Alphabet在2021年11月,就已经开始推动AlphaFold项目的商业化了。子公司Isomorphic Labs成立,目的在于利用人工智能加速发现药物,寻找治疗方法。
Isomorphic Labs聚焦小分子药物开发,药物通常用于靶向治疗。公司创始人兼CEO Demis Hassabis,同时也是DeepMind的创始人兼CEO,首席科学家、首席AI官在AI、药物发现和跨学科研究等方面都有不少经验。
来源:官网
2024年1月初,Isomorphic Labs宣布与全球制药巨头礼来和诺华建立战略合作,同时声称,合作或为公司带来近30亿美元的价值(甚至不包括将来销售药物可能产生的特许权使用费)。
巨头总是提前入场。这一合作的时间点,正好位于Alphafold-latest「预告片」发布后,Alphafold 3正式发布前。
Deepmind的成果让许多玩家望洋兴叹。它不仅背靠谷歌母公司Alphabet的强大算力和财力,AlphaFold早早成为业内应用最为广泛的蛋白质预测AI模型,亦已吸引众多第三方科研团队在其模型基础上展开调整。
AI制药初创野蛮生长,千亿美元市场隐显
过去十年,投资人已经向AI驱动的生物科技公司投入超180亿美元。随着AI的普及,药物发现速度更快,成本更低。据彭博社,越来越多的制药公司、投资人以及诸如英伟达这样的科技巨头,正在进入这个超过500亿美元的市场。
AI研发骨质疏松症药物,获英伟达投资
英伟达,近两年来疯狂下注AI制药初创公司。2024年3月消息,英伟达又投资了一家计算药物发现初创公司Relation Therapeutics。Relation Therapeutics核心项目瞄准骨质疏松症,种子轮融资总额已达 6000 万美元。
来源:官网
公司建立了一个 「骨组学 (osteomics)」平台,对人类成骨细胞进行全基因组和 RNA 测序。这些数据输入AI模型后,能够识别可能与疾病风险相关的基因变异。为了测试这些关联性,Relation建立了一种方法,利用CRISPR基因敲除单个或成对的疾病风险基因,并研究其对骨矿化(骨质疏松症的标志物)的影响。
这种 「实验室内循环 「能力是Relation与其他许多人工智能驱动的生物技术初创公司的不同之处。它使公司能够将 22000个人类基因的搜索空间缩小到几百个和骨质疏松送症有关的基因。该公司迄今发现的许多疾病风险基因与现有的骨质疏松症文献中的基因一致,验证了「骨组学」平台的有效性。随着更多关联基因的发现,将有可能使人们对骨质疏松症的发病机制有新的认识。
在过去,这样的研究路径需要多个实验室和研究人员进行十年或更长时间的工作,但Relation的整合方法使其能够在短短几年内完成这一过程。最终目标是将实验室数据和机器学习预测结合起来,找到可能的干预措施,从而可以在临床上测试其对骨质疏松症的安全性和有效性的新药或现有药物。
Meta蛋白质团队负责人,再造一个AlphaFold
2023年8月,Meta解散了其专注于AI预测蛋白质结构大模型的团队,将精力转向更可能创收的AI项目。要知道,在2022年7月,其推出的蛋白质结构预测模型ESMFold,还能和AlphaFold 2比试一番。
被裁掉的前 Meta AI 蛋白质折叠团队负责人Alexander Rives,随后创立「AI+蛋白质折叠」初创公司 EvolutionaryScale,到2023年6月,完成种子轮融资超 4000 万美元。
来源:X
和DeepMind的方向相似,EvolutionaryScale的目标是每年建立一个新模型。之后,能够研发出超越仅仅预测蛋白质结构,整合来自 DNA 序列、基因表达和表观遗传状态的其他生物数据。未来它愿景是销售一种通用的生物学人工智能模型。
来源:Forbes
理论上,这个模型可用于医学,例如开发「寻找并消灭癌症或其他疾病的可编程细胞」,也可用于其他生物技术应用,例如设计「分子机器」来清理有毒废物或捕获碳。
AI研发肿瘤药物
2023 年 10 月,Iambic Therapeutics 筹集1亿美元用于AI支持的肿瘤药物开发。该公司专有人工智能算法平台,包括 NeuralPLexer 和 OrbNet,技术目前已经产生了四种人工智能发现的分子,计划于 2024 年进入临床试验。
来源:官网
2024年2月,Iambic Therapeutics在Nature Machine Intelligence上发表封面技术文章,图源:官网
同年,Pharos iBio的AI药物发现平台Chemiverse使用多种人工智能技术来识别和开发靶向抗癌药物。通过Chemiverse,Pharos iBio成功识别并开发了PHI-101,该靶向抗癌药物可对抗约30%至35%的急性髓细胞白血病(AML)患者中发现的FLT3基因突变,研究人员也在测试候选药物的在治疗耐铂复发性卵巢癌方面的潜力。
图源:Pharos iBio官网
迄今为止,AI制药行业还并未诞生任何获批上市的药物。AlphaFold 3出现,或许能让「AI+制药」的追随者多一分信心。