文|李苗 陳斯達
編輯|李然
5月9日,谷歌DeepMind又一次更新了AlphaFold,推出了全新的生命分子結構的預測模型AlphaFold 3。AlphaFold 2 已為「業界最強」,而AlphaFold 3直接將預測範圍,從蛋白質結構擴充套件到大部份生命分子,準確率也提高了一倍。
來源:X
飛躍式的進展,讓AlphaFold 3的論文登上Nature頭條。
來源:Nature官網
具體來說,這次AlphaFold 3的升級,主要是加入了透過Diffusion Model,以直接預測原子3D座標的方式搭建模型,成功將AI對蛋白質預測的能力擴充套件到包括DNA,RNA等領域。 它可以對蛋白質、DNA 和 RNA 等大型生物分子、小分子(也稱為配體)、甚至許多藥物進行預測。
來源:X
例如,AlphaFold 3成功地預測了冠狀病毒OC43的棘蛋白,預測的結果(綠色和黃色部份)與真實情況(灰色部份)高度吻合。
來源:官方網誌
AlphaFold 3對分子復合物的預測:
來源:官方網誌
復合物由蛋白質(藍色)與DNA雙螺旋(粉色)結合而成。預測的結果與透過實驗艱苦發現的真實分子結構(灰色)近乎完美匹配。
來源:彭博社報道
AlphaFold 3將AI預測生物分子能力的邊界大大擴充套件之後,也為未來基於科研結果的商業化,開啟了無限的可能性。DeepMind CEO Hassabis也在接受彭博社采訪時稱,AlphaFold 3透過加速生物學科研, 將開啟超過1000億美元的藥物研發市場。
來源:彭博社報道
他強調: 「分子結構預測需要能夠考慮不同生物分子之間的相互作用的能力,這對藥物發現至關重要。」AlphaFold 3具備的能力,對設計和測試包括疫苗在內的新藥所使用的化合物,具有重要作用。
他預計,未來幾年,會有一大批人工智能設計的藥物進入臨床,為人類的生命健康帶來巨大好處。
網友對DeepMind的突破也是驚嘆不已,有評論直稱此項成果為「上帝之母」。
來源:X
「巨大的進步!癌癥都要瑟瑟發抖!」
來源:X
預測效果提升顯著,直指藥物研發
結構生物學在AI引入之前,只有少數蛋白質的構造被真正研究出來。
在2018年12月,AlphaFold1在43種蛋白質中成功預測25種蛋白質的結構,以最高分贏得第13屆蛋白質結構預測技術關鍵評估(CASP)。AlphaFold 2在2020年的CASP上,以高於90%的準確率,再次將其他選手遠遠甩在身後。
蛋白質折疊的問題雖然依然未能完全解決,但AlphaFold 2代表的技術進步意味著,與實驗室方法相比,計算生物學能產出精確度相當的蛋白質結構預測結果,成本也被大幅壓縮。
2023年10月底,Alphafold-latest釋出,預測蛋白質結構更準,還在此基礎上,將能力泛化到核酸、任意小分子配體等其他的生物分子結構的預測上,這意味著,使用AlphaFold的方法,可以對所有重要生物分子及其相互作用進行原子級精確結構預測。
如今看來,Alphafold-latest正是此次AlphaFold 3的 「預告片」 。
在AlphaFold 3釋出後,Hassabis告訴媒體:「生物學是一個動態系統,生物學特性是透過細胞中不同分子之間的相互作用而顯現出來的,你可以將AlphaFold 3視為人類朝著(建模)這一目標邁出的第一步。」
而這歷史性的一步,依然還是建立在近幾年AI領域中最火的Transformer和Diffusion模型之上。
論文內容介紹
論文地址:https://www.nature.com/articles/s41586-024-07487-w
AlphaFold 3是透過設計了一個開創性的構架,將Transformer和Diffusion模型做了巧妙地結合,從而克服了AlphaFold 2的局限性,將蛋白質預測精度進一步提升,同時將預測範圍擴大到其他分子上。
來源:官方論文
在AlphaFold 2基礎之上,AlphaFold 3改進了底層模型框架,轉向「擴散技術」。擴散過程從原子雲開始,經過多個步驟,最終形成最精確的分子結構。這一技術被主要用於OpenAI的DALL-E 2 和 Sora 的影像和影片生成領域,原理是逐漸做「減法」——從一張純噪點影像開始逐漸降噪,直到「雕刻」出準確的預測影像。該方法使AlphaFold 3可以處理更大的輸入集。
在底層架構更改的細節上,Alpha Fold 3 簡化了遺傳特征編碼器(MSA module),成對殘基關系編碼器(Pairformer)也取代了原有的前進演化特征處理單元(Evoformer),增強了復雜相互作用模式的建模能力。在生成環節,結構生成器可以直接預測原子座標,比原先以胺基酸為中心的方式提供了更高的靈活性和精度。
效果是顯而易見的。AlphaFold3對於蛋白質與其他分子類別型的相互作用的預測效果至少可以提高50% ,對於特定類別,預測精度提高一倍。在預測範圍上,AlphaFold 3不僅能模擬蛋白質、DNA和RNA這樣的大型生物分子,還能處理小分子,例如藥物研發中的配體,實作聯合預測和研究分子間相互作用。RoseTTAFold2NA只能處理一千個殘基以下的結構,而AlphaFold 3可以處理殘基倍數於此的結構。
對上千個殘基結構預測示意
聯合預測模型舉例
DeepMind總監John Jumper表示,這標誌著模型的 「巨大演變」, 「確實簡化了讓不同原子協同工作的整個過程。」
雖然準確度大幅提升,「擴散技術」最大的問題仍在於 「幻覺」 ,且其知識範圍也局限於訓練所用的PBD數據。為了避免擴散方法在一些無結構區域產生幻覺,還引入了一種新的交叉蒸餾方法,透過AlphaFold-Multimer v2預測的結構數據來豐富訓練數據,從而降低產生幻覺的可能性。
不再開源,科研的終點是建立商業帝國
2021年7月,DeepMind將AlphaFold 2開源。而目前看起來,DeepMind應該不會公布AlphaFold 3的程式碼,僅可透過DeepMind網站進行非商業用途研究。
使用者可以透過谷歌推出的「AlphaFold Server」來存取AlphaFold 3,不過每天只能生成10次,而且不能生成和制藥相關的分子。
來源:官方
而谷歌母公司Alphabet在2021年11月,就已經開始推動AlphaFold專案的商業化了。子公司Isomorphic Labs成立,目的在於利用人工智能加速發現藥物,尋找治療方法。
Isomorphic Labs聚焦小分子藥物開發,藥物通常用於靶向治療。公司創始人兼CEO Demis Hassabis,同時也是DeepMind的創始人兼CEO,首席科學家、首席AI官在AI、藥物發現和跨學科研究等方面都有不少經驗。
來源:官網
2024年1月初,Isomorphic Labs宣布與全球制藥巨頭禮來和諾華建立戰略合作,同時聲稱,合作或為公司帶來近30億美元的價值(甚至不包括將來銷售藥物可能產生的特許權使用費)。
巨頭總是提前入場。這一合作的時間點,正好位於Alphafold-latest「預告片」釋出後,Alphafold 3正式釋出前。
Deepmind的成果讓許多玩家望洋興嘆。它不僅背靠谷歌母公司Alphabet的強大算力和財力,AlphaFold早早成為業內套用最為廣泛的蛋白質預測AI模型,亦已吸引眾多第三方科研團隊在其模型基礎上展開調整。
AI制藥初創野蠻生長,千億美元市場隱顯
過去十年,投資人已經向AI驅動的生物科技公司投入超180億美元。隨著AI的普及,藥物發現速度更快,成本更低。據彭博社,越來越多的制藥公司、投資人以及諸如輝達這樣的科技巨頭,正在進入這個超過500億美元的市場。
AI研發骨質疏松癥藥物,獲輝達投資
輝達,近兩年來瘋狂下註AI制藥初創公司。2024年3月訊息,輝達又投資了一家計算藥物發現初創公司Relation Therapeutics。Relation Therapeutics核心專案瞄準骨質疏松癥,種子輪融資總額已達 6000 萬美元。
來源:官網
公司建立了一個 「骨組學 (osteomics)」平台,對人類成骨細胞進行全基因組和 RNA 測序。這些數據輸入AI模型後,能夠辨識可能與疾病風險相關的基因變異。為了測試這些關聯性,Relation建立了一種方法,利用CRISPR基因剔除單個或成對的疾病風險基因,並研究其對骨礦化(骨質疏松癥的標誌物)的影響。
這種 「實驗室內迴圈 「能力是Relation與其他許多人工智能驅動的生物技術初創公司的不同之處。它使公司能夠將 22000個人類基因的搜尋空間縮小到幾百個和骨質疏松送癥有關的基因。該公司迄今發現的許多疾病風險基因與現有的骨質疏松癥文獻中的基因一致,驗證了「骨組學」平台的有效性。隨著更多關聯基因的發現,將有可能使人們對骨質疏松癥的發病機制有新的認識。
在過去,這樣的研究路徑需要多個實驗室和研究人員進行十年或更長時間的工作,但Relation的整合方法使其能夠在短短幾年內完成這一過程。最終目標是將實驗室數據和機器學習預測結合起來,找到可能的幹預措施,從而可以在臨床上測試其對骨質疏松癥的安全性和有效性的新藥或現有藥物。
Meta蛋白質團隊負責人,再造一個AlphaFold
2023年8月,Meta解散了其專註於AI預測蛋白質結構大模型的團隊,將精力轉向更可能創收的AI專案。要知道,在2022年7月,其推出的蛋白質結構預測模型ESMFold,還能和AlphaFold 2比試一番。
被裁掉的前 Meta AI 蛋白質折疊團隊負責人Alexander Rives,隨後創立「AI+蛋白質折疊」初創公司 EvolutionaryScale,到2023年6月,完成種子輪融資超 4000 萬美元。
來源:X
和DeepMind的方向相似,EvolutionaryScale的目標是每年建立一個新模型。之後,能夠研發出超越僅僅預測蛋白質結構,整合來自 DNA 序列、基因表現和表觀遺傳狀態的其他生物數據。未來它願景是銷售一種通用的生物學人工智能模型。
來源:Forbes
理論上,這個模型可用於醫學,例如開發「尋找並消滅癌癥或其他疾病的可編程細胞」,也可用於其他生物技術套用,例如設計「分子機器」來清理有毒廢物或捕獲碳。
AI研發腫瘤藥物
2023 年 10 月,Iambic Therapeutics 籌集1億美元用於AI支持的腫瘤藥物開發。該公司專有人工智能演算法平台,包括 NeuralPLexer 和 OrbNet,技術目前已經產生了四種人工智能發現的分子,計劃於 2024 年進入臨床試驗。
來源:官網
2024年2月,Iambic Therapeutics在Nature Machine Intelligence上發表封面技術文章,圖源:官網
同年,Pharos iBio的AI藥物發現平台Chemiverse使用多種人工智能技術來辨識和開發靶向抗癌藥物。透過Chemiverse,Pharos iBio成功辨識並開發了PHI-101,該靶向抗癌藥物可對抗約30%至35%的急性髓細胞白血病(AML)患者中發現的FLT3基因突變,研究人員也在測試候選藥物的在治療耐鉑復發性卵巢癌方面的潛力。
圖源:Pharos iBio官網
迄今為止,AI制藥行業還並未誕生任何獲批上市的藥物。AlphaFold 3出現,或許能讓「AI+制藥」的追隨者多一分信心。