當前位置: 華文世界 > 科技

科學智慧又一重要成果:中澳科學家用AI發現超過16萬種新病毒

2024-10-13科技
近日,中國和澳洲科學家的一項國際聯合研究利用人工智慧(AI)工具發現了161979種新RNA病毒,是已知病毒種類的近30倍,大幅提升業界對RNA病毒多樣性和病毒演化歷史的認知。這項研究也是迄今為止發表的數量最大的病毒物種發現論文。
圖片來源:阿裏雲
這項經過同行評審的研究10日發表在國際知名學術期刊【細胞】(Cell)上。研究的共同通訊作者[1] 中山大學醫學院施莽教授告訴澎湃新聞(www.thepaper.cn):「人工智慧演算法模型使我們能夠挖掘出以前未知或被忽視的病毒。這種能力在疾病控制和快速辨識新病原體方面尤為重要。」
今年剛剛揭曉的諾貝爾物理學獎和化學獎都和AI在科學領域的套用有關,將科學智慧(AI for Science)推上了歷史風口。施莽表示,對於病原學領域來說,AI完全不同於傳統工具,它是一種數據驅動的研究模式,代表了一種新的科研範式。
「我們常說,新的方法帶來新的發現,AI幫助我們突破了對病毒圈的認知。這類方法還能套用於更多病毒學領域的科學問題,比如新發現的病毒是否具有致病性?是否可能引發下一次大流行?它的蛋白質功能是什麽?」施莽說,「在科研領域,AI的套用已經勢不可擋,透過AI方法探索科學問題已取得了重要突破。這種研究範式將成為未來科學界的常態,也可能成為我們認知世界的重要手段。」
首次揭示了病毒圈「暗物質」的含義
病毒是無處不在的微生物,但目前被人類辨識的僅有5000余種,是病毒世界的冰山一角。其中一些病毒可能會導致人類患病,對於病毒的認識擴充套件,意味著能有助於人類應對各種疾病。
根據病毒的遺傳物質,可將病毒分為DNA病毒和RNA病毒,一般來講,後者建構更簡單,在自然界中的數量也更多。RNA病毒無處不在,在最極端的環境中也有存在,是最神秘的微生物,甚至有可能參與了早期生命的起源。它們在全球生態系中發揮著關鍵作用,其中一些是人類傳染病的病原體。
傳統的病毒發現方法包括病毒分離和透過比較未知病毒與已知病毒的序列相似性的生物資訊學方法來進行辨識。然而,RNA病毒種類繁多且高度分化,傳統方法難以捕捉缺乏同源性或同源性極低的「暗物質病毒」,新病毒發現的效率較低。但這些序列對應的有類似功能的蛋白質結構卻有相對較高同源性,而基於AI的蛋白質結構預測與病毒學研究的結合正在突破這一難題。
此前,已有科學家利用機器學習搜尋了公開資料庫中存檔的基因組樣本,並行現了許多新的RNA病毒。此次發表在【細胞】雜誌上的最新研究將這項工作更推進了一步,即透過AI輔助的蛋白質結構的預測。
RNA病毒都有一個稱為「RdRp」的核心蛋白,即病毒RNA復制酶。上述研究根據一個全新的深度學習模型「LucaProt」,基於Transformer框架(構建GPT等主流AI大模型的基礎框架),透過向其輸入蛋白質序列預測。訓練好的模型可以用來辨識病毒 RdRp,並用它在大量基因組數據中尋找這些未知病毒的類似蛋白序列。
值得一提的是,該AI模型包含一種名為ESMFold的蛋白質預測工具,該工具由美國科技巨頭Meta的研究人員開發。類似的AI系統還包括由Google DeepMind的研究人員開發的AlphaFold,其CEO德米斯·哈薩比斯(Demis Hassabis)於本周獲得了諾貝爾化學獎。
利用這套演算法,研究團隊對來自全球生物環境樣本的10487份數據進行病毒挖掘,發現了513134條病毒基因組,代表161979個潛在病毒種及180個RNA病毒超群。使RNA病毒超群數量擴容約9倍,病毒種類增加約30倍,其中23個超群無法透過序列同源方法辨識,被稱為病毒圈的「暗物質」。
該論文還揭示多個病毒學領域新發現:發現迄今為止最長的RNA病毒基因組,長度達到47250個核苷酸;辨識出超出以往認知的基因組長度,展示了RNA病毒基因組前進演化的靈活性超出之前病毒學家的認知;此外,在高溫的深海熱泉等極端環境中,RNA病毒依舊存在多樣性。
「這些病毒中的絕大多數都已經測序並儲存在公共資料庫中,但它們的差異太大,以至於沒人知道它們是什麽,參與這項研究的雪梨大學醫學與健康學院醫學科學院的愛德華茲·荷姆斯(Edwards Holmes)教授說,「它們包含通常被稱為序列 ‘暗物質’的東西。我們的人工智慧方法能夠組織和分類所有這些不同的資訊,首次揭示了這種’暗物質’的含義。」
大幅提升對病毒多樣性認知
施莽團隊的研究顯示病毒的多樣性遠超人類想象,目前我們所看到的只是冰山一角,未來病毒分類體系可能會有大規模的調整。
論文共同作者、阿裏雲智慧雲棲實驗室研究員李兆榮博士表示:「LucaProt是前沿人工智慧技術與病毒學的重要結合,表明人工智慧可以有效地完成生物探索任務。這種結合為進一步解碼生物序列、從新視角解構生物系統提供了寶貴的見解和激勵。我們也將繼續在病毒學人工智慧領域的研究。」
施莽也進一步介紹:「人工智慧的演算法模型能夠挖掘出我們之前忽略或根本不知道的病毒,這種能力在疾病防控和新病原的快速辨識中尤為重要。特別是在疫情暴發時,人工智慧的速度和精度可以幫助科學家更快地釘選潛在病原體。」
施莽表示,過去依靠繁瑣的生物資訊學流程來發現病毒,限制了我們可以探索的多樣性。「現在,我們有了一個更有效的基於人工智慧的模型,它提供了卓越的靈敏度和特異性,同時讓我們能夠更深入地研究病毒多樣性。我們計劃將此模型套用於各種套用。」
施莽透露,下一步的研究包括對於病毒與宿主的關系,以及辨識可以感染特定宿主的病毒群。
「例如,在人體中可以發現許多病毒,但並不是所有病毒都會感染人類。有些病毒專門感染細菌,有些則感染人類攝入的食物,還有些感染寄生蟲。因此,關鍵在於找到真正感染宿主細胞的病毒。另一種情況是,當我們在動物或媒介昆蟲中監測潛在的人類病原體時,需要一個工具來判斷在這些動物和媒介中新發現的病毒是否具備跨物種傳播到人類並引發大流行的潛力。」他說。
研究團隊表示,將繼續訓練該模型以發現更多的病毒多樣性,並且同樣的方法可以用於辨識細菌和寄生蟲。
沒有參加這項研究的生物前進演化學家姜小煒博士認為: 「對於擴大對病毒圈的認知來說,這是一種非常有前途的方法,基於AI的結構生物學和演化生物學結合的方法會幫助科學家發現病毒在自然界很多未知的多樣性和演化規律。 以後更好的這類方法和數據會帶來更多的病毒多樣性和演化的重大發現,幫助人類應對未來挑戰。」
荷姆斯教授表示:「這是在一項研究中發現的新病毒種類數量最多的一次,極大地擴充套件了我們對生活在我們身邊的病毒的了解。然而這只是冰山一角,開啟了一個探索的世界。還有數百萬種病毒有待發現,我們可以用同樣的方法來辨識細菌和寄生蟲。誰知道還會有什麽額外的驚喜呢。」
澎湃新聞首席記者 劉棟
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)