AI助力打造科學研究新範式丨大力推進科研範式變革

2024-03-24科學

本文刊載於【中國科學院院刊】2024年第1期「專題：大力推進科研範式變革」

鄂維南

1 北京大學

2 北京科學智能研究院

科學研究的目的是發現基本原理和解決實際問題。盡管人類在發現基本原理和解決實際問題上已經取得了巨大成就，但有效工具和有效科研組織模式的缺乏仍然是制約科研效率的主要瓶頸。人工智能（AI）的迅速發展為改變這種狀況提供了新的可能。近年來，深度學習方法在科學研究領域大放異彩，不僅助力解決了一些核心科學問題，擴充套件了科學方法，也開始帶動科學研究從傳統的「作坊模式」轉向「平台模式」。目前，中國已在人工智能驅動的科學（AI for Science）領域打下良好基礎，應把握機遇，爭取引領科技創新，為人類的科技發展作出貢獻。

科學研究有2個主要目的：發現基本原理，如發現行星運動規律和量子力學原理；解決實際問題，如解決工程和工業中出現的問題。科學研究有2種主要方法：開普勒範式，即數據驅動的方法；牛頓範式，即基本原理驅動的方法。前者最好的例子是行星運動三定律的發現，即開普勒透過分析觀察數據發現了這些規律。後者最好的例子是牛頓對行星運動三定律的解釋和運用。牛頓提出了力學第二定律和萬有重力定律，在此基礎上將行星運動問題歸結為一個常微分方程式問題並推匯出行星運動三定律。這裏原始的科學發現是開普勒做出的，但他並不理解其背後的原因。牛頓進一步發現了背後的基本原理，這些原理進而可用於許多其他問題。

從實際套用的角度來看，在量子力學建立之後，尋找基本原理的任務已經基本完成。早在1929年，狄拉克就宣稱，「大部份物理學和整個化學的數學理論所需要的基本物理定律已經完全被人們所知，困難在於這些定律的精確套用導致方程式過於復雜而無法求解」。他的斷言不僅適用於化學，也適用於生物學、材料科學，以及所有其他不涉及高能物理的自然科學與工程學科。在實際情況中，通常不必深入到量子力學層面，而可以使用一些簡化的基本原理，如氣體動力學的歐拉方程式和流體力學的納維—斯托克斯方程式。

對於套用數學家來說，一方面有了這些基本原理，所有的自然科學和相關的工程問題都可以歸結為數學問題，再具體而言是常微分方程式或偏微分方程式問題。另一方面，在開發出有效的工具之前，為了解決實際問題，科學家只能大振幅簡化或徹底忽略這些基本原理。

馮·紐曼認識到電腦和數值演算法應該提供一種利用這些基本原理解決實際問題的通用方法，這是一個重大進展。沿著這個方向，人們提出了許多求解這些微分方程式的數值演算法，如有限差分、有限元和譜方法。這些演算法的基本出發點是一般函數可以用多項式或分片多項式逼近。這些工作的影響是巨大的。今天，科學計算已經成為現代技術和工程科學的基礎。許多學科，如結構力學、流體力學和電磁學，由於引入數值演算法而發生了徹底改變。

1 科學研究的基本問題

目前，科學研究中並非所有問題都得到了解決。例如研究材料的效能和設計、藥物設計、內燃機設計，以及許多控制問題仍然遠遠做不到使用基本原理來解決。在這些領域，理論工作往往與現實世界相去甚遠，現實世界的問題必須透過試錯或靠經驗來解決。這導致科學研究效率低下，相關領域的技術提升進展緩慢。

所有這些「困難」問題都有一個共同特點，即它們依賴於多個獨立變量。所以，這些困難實際來自維度災難。以量子力學的薛定諤方程式為例，忽略對稱性，波函數中獨立變量的個數是粒子數量的3倍，所以10個電子的系統雖然是非常簡單的體系，但其對應的30維空間偏微分方程式卻已經非常復雜！

2 人工智能為科學計算提供新的解決方法

深度學習在影像分類、影像生成和圍棋等方面取得了極大的成功。這些都是標準的人工智能問題，但從數學角度來看，這些問題其實是函數逼近、概率分布的逼近和采樣，以及求解貝爾曼方程式的問題。而所有這些都是套用數學，尤其是計算數學長期面臨的典型問題。不同之處在於，這些人工智能問題比套用數學中處理的問題維度要高得多。以影像分類問題為例，這裏的自變量是影像，每個像素都是1個自由度。因此，1張32×32像素的彩色圖片有3072個自由度。換句話說，這個問題的維度是3072。

深度學習在這些高維問題上取得的成功提示深度神經網絡可能是逼近高維函數更有效的工具。雖然目前還沒有建立起一個完整的深度學習的數學理論，但已經取得了一些重要進展和直觀了解。首先，神經網絡就是一類特殊的函數。如果使用規則網格上的分片線性函數來逼近一個函數，其誤差與網格大小的平方成正比。這正是維度災難的根源：隨著維度的增加，同樣網格大小所需要的格點個數呈指數增長。不僅基於分片線性函數的逼近是這樣，所有基於固定基函數的逼近方法都是這樣。如果利用神經網絡函數來逼近一般的函數，那麽至少在某些情況下，可以證明其逼近精度不會隨著維度的增加而惡化，就跟計算數值積分的蒙特卡羅（Monte Carlo）方法一樣。

這個觀察結果有著廣泛的意義。因為函數是最基本的數學物件之一，所以一個新的高維函數逼近工具將對許多不同的領域產生深遠影響。特別是，深度學習應該有助於解決之前討論過的那些受維度災難困擾的問題。這是人工智能驅動的科學（AI for Science）的出發點。

這方面最成功的例子是預測蛋白質結構的AlphaFold演算法。蛋白質結構是生物學最基本的問題之一。研究蛋白質結構的基本方法是首先最小化整個蛋白質—溶劑系統的總勢能。但2個主要的困難限制了這種方法的成功：獲得精度足夠高的勢能函數，以及該函數景觀的復雜性。科學家也曾嘗試過數據驅動的方法，但其成功僅限於預測二級結構，如α-螺旋和β-折疊。透過充分利用蛋白質序列數據集及最先進的深度學習模型，DeepMind公司開發了AlphaFold2演算法，它以非常優雅的方式基本解決了蛋白質結構問題。這項研究震驚了世界。

AlphaFold2是純粹數據驅動的方法。但這並不意味著AI for Science是一個純粹數據驅動的研究範式。事實上，科學研究遵循如前所述的基本原理或第一性原理，而AI for Science的一個主要組成部份是用人工智能方法為這些基本原理開發更高效的演算法或近似模型。在這方面，最著名的例子是分子動力學。分子動力學是生物學、材料科學和化學的基本工具，其思想是透過計算體系中原子的動態軌跡來研究分子和材料的性質。原子運動遵循牛頓定律，困難的部份來自於模擬原子之間的相互作用力或勢能函數。經驗勢函數的方法是盡可能地猜出原子間勢能函數的函數形式，然後用一些實驗或第一性原理計算出的數據來擬合其中的參數。雖然這種方法可以提供一些幫助，但作為一個研究特定體系的定量工具，它是不可靠的。1985年，Car和Parrinello開發了第1個基於第一性原理的人工智能方法：透過使用量子力學模型（如密度泛函理論）來即時計算原子之間的作用力。這種方法能夠以第一性原理的精度來模擬特定體系。但在實踐中，效率是一個瓶頸。由於效率的限制，只能用這種方法來處理含數千個原子的體系。

機器學習提出了一種新的範式。在這個新的範式下，量子力學僅用於提供數據。基於這些數據，可以使用機器學習方法來得出原子間勢能函數的精確近似，然後就像使用經驗勢能函數一樣將其用於分子動力學模擬。

為了使這個策略真正有效，必須處理2個重要問題。

1. 網絡架構 。它應該是可拓展的，並且遵循物理學基本規律。可拓展效能夠在小體系上做機器學習並將結果套用於更大的體系。這個問題在Behler和Parrinello兩位科學家的經典工作中得到了解決。遵循物理規律意味著必須保持對稱性、守恒律、不變性和其他物理約束。在勢能函數這個問題中，需要考慮的主要是平移、旋轉和置換不變性。這可以透過使用一個嵌入網絡來實作，該網絡將原子位置的資訊對映到一組保持對稱性的函數上。然後再透過一個逼近網絡來擬合勢能函數。

2. 數據有關 。一方面，如果希望機器學習方法產生的勢能函數在所有感興趣的實際場景中都與原始的量子力學模型一樣精確可靠，那麽訓練數據集就需要能夠對所有這些不同場景都具有充分的代表性。另一方面，由於標註數據是用量子力學模型計算出來的，而這些計算是比較昂貴的，所以希望數據集盡可能小。這就需要一種自適應數據生成演算法，它能夠幫助人工智能在學習過程中動態生成「最優」數據集。

ELT演算法就是為了解決這個問題。它由探索（exploration）、標註（labeling）和訓練（training） 3個部份組成，因此得名ELT。ELT可以從沒有數據和粗糙的初始勢能函數開始。在探索過程中，使用一些采樣演算法（如某種分子動力學方法）來探索不同的原子構象。對於遇到的每個構象，可以計算出一個指標值來檢視是否需要對其進行標註。然後將標註好的數據添加到訓練數據集中，並基於它定期更新對勢能函數的逼近。

該演算法的關鍵在於采樣方案和如何計算指標值。采樣方案的基本思想是僅探索實際感興趣且缺乏足夠多的訓練數據的構象空間。指標值的關鍵在於判別哪些構象附近還缺乏足夠多的訓練數據。對於後者，ELT方案采用的方案是訓練一組近似勢能函數。這組近似勢能函數之間的標準差定義為指示函數。對當前采樣到的構象，如果其指示函數值超過了閾值，就對該構象作標註。其背後的邏輯是，如果這個構象附近有足夠多的訓練數據，那麽不同網絡預測的勢能函數值都應該非常準確且彼此接近。大的標準差表明附近沒有足夠多的訓練數據，因此應該對當前構象進行標註並加到訓練數據集中。對於采樣演算法，選擇帶偏差的分子動力學，其中偏差勢函數由當前對勢能函數的逼近來定義，並由其準確性的置信區間大小來定義權重。其背後的邏輯是，如果當前已經得到的勢能函數在一個區域範圍足夠準確，那麽應該離開這個區域而到其他地方進行采樣。

有了這些主要元件，確實可以為一大類（如果不是全部的話）原子體系提供具有第一性原理精度的勢能函數。所得的模型稱為深度勢能分子動力學（deep potential molecular dynamics，DeePMD）。它是一個可靠的、具有第一性原理精度的原子模擬工具。結合高效能計算，它將以第一性原理精度分子動力學模擬的能力從只能處理數千個原子的體系擴充套件到處理170億個原子的體系。DeePMD軟件包DeePMD-kit也大大降低了DeePMD的使用門檻。

類似的想法可以套用於其他物理模型。例如，可以用高度準確的量子化學計算數據來訓練更通用、更準確的密度泛函模型。還可以開發更準確、更可靠的粗粒化分子動力學模型，以及更準確的動力學方程式的矩陣模型等。事實上，機器學習正是過去多尺度、多物理建模所缺少的工具。

除了基本原理的模型之外，人工智能方法還可以提供更高效、更準確的反演演算法，從而增強實驗表征能力。先前討論過的基於人工智能的演算法可以為正問題提供更逼真、更準確的數據，而神經網絡中的可微分結構可以幫助設計解決反問題的最佳化或采樣演算法。這項工作仍處於早期階段，但它是一個有巨大發展空間的方向。

人工智能方法還有可能改變人們利用文獻和現有科學知識的方式。文獻和現有科學知識是科研靈感的主要來源之一。然而，利用好這些資源也是一個非常艱巨的任務：需要從大量資訊中挖掘出相關文獻和知識，並需要花大量時間來閱讀和研究它們。然而，可以利用人工智能數據庫和大語言模型來收集和整合這些資訊並更有效地查詢這些資訊。原則上，對於感興趣的任何研究課題，都可以使用人工智能工具快速總結文獻中的相關資訊及其來源。人工智能技術甚至可以幫助建議一些進一步的研究方向。這將大大提高科學研究的效率。

隨著這些新的可能性的出現，可以探索一種新的科研範式，並把它稱為科學研究的「安卓範式」。在這個新範式下，科學界將共同努力建立起一套新的基礎設施，包括用於基本原理的人工智能演算法、人工智能賦能的實驗設施和新的知識數據庫。這些平台構成了科學研究的「安卓平台」。無論是尋找特定化學反應中的催化劑還是設計新電池，這些針對特定套用的研究工作都可以在這個「安卓平台」上進行。這無疑將加快科學研究的行程。

這種橫向整合的觀點也將有助於打破學科壁壘，加強跨學科的研究和教育。橫向整合的觀點本身並不新，由於缺乏有效的工具，過去它難以帶來實質性的進展。如前所述，人工智能方法提供了大大改進這些橫向工具的空間。這些新的橫向工具，例如新的查閱文獻和現有科研數據的平台，以及自動化、智能化的實驗平台，使得科研人員能夠從橫向的角度更有效地看待不同的科研場景。例如，對原子體系，生物學關註的是生物大分子，材料科學關註凝聚態體系；化學比較關註小分子，化工領域則比較關註高分子。而從理論工具的角度來說，無論哪種體系，都離不開電子結構方法和分子動力學方法。實驗工具則包括不同尺度的光譜和顯微鏡成像技術。盡管不同領域關註不同體系，這些不同領域的工具和知識都應該可以最大程度地共享。在這個框架下，學科之間的界限也就自然消失。

3 中國AI for Science的發展現狀

帶著這一願景，筆者團隊在2018年啟動了DeepModeling開源平台。這個平台的目的是邀請科學界共同努力，為物理建模和數據分析建立基於人工智能方法的基礎設施。到目前為止，它已經產生了巨大的影響力並吸引了許多的開發者，在中國，AI for Science的發展呈現出令人欣慰的良好局面。所有這些，都為AI for Science在中國的發展奠定了良好的基礎。

在短短幾年內，AI for Science的重要性和它帶來的巨大發展空間已經得到了廣泛的認可

一大批各個領域的領軍學者都高度重視AI for Science這一機會。2024年初【中國科學院院刊】策劃組織「大力推進科研範式變革」專題，就是一個例證。

一批專註於AI for Science的研究團隊正在出現並展示出良好的勢頭

經過3年多的醞釀，北京科學智能研究院於2021年9月在北京市的支持下正式成立。這是國際上第1個專註於AI for Science的研究機構，致力於打造AI for Science時代的基礎設施。除此之外，還有中國科學技術大學的機器化學家團隊、廈門大學嘉庚創新實驗室的AI for Electrochemisty團隊等。

一批企業也在AI for Science方向積極布局

這體現了產業界對AI for Science的巨大信心。在AI for Science的旗幟下聚集了一大批有能力、有決心、有幹勁的青年產業人員。

科學技術部、國家自然科學基金委員會等國家機構和北京市、上海市等地方政府都在積極出台政策，支持AI for Science的研究

2022年，國家自然科學基金委員會交叉科學部首先推出「可解釋、可通用的下一代人工智能重大研究計劃」，AI for Science是其中一個重要組成部份。

4 建議

如今的良好基礎並不代表AI for Science在中國的健康發展已經板上釘釘。對一個領域的發展來說，成為熱點是一把雙刃劍。越是熱點，就越容易產生泡沫。如何才能保證利用好這個機會，讓AI for Science帶動中國在下一次科技創新和產業變革的浪潮中走在最前沿？本文提出以下4個方面具體建議。

要有具有高度前瞻性的頂層設計

頂層設計必須把基礎設施建設放在第1位。基礎設施建設周期長、任務重、困難大，但從長遠發展的角度來說，它的重要性毋庸置疑。過去的幾年裏，我們目睹一些領域長期的表面繁榮在一夜之間被打回原型的例子，這與先進國家相比呈現出巨大差距。究其原因，都是因為沒有在基礎設施上下足夠的功夫。

要有理性的資源分配機制

要讓有能力、有動力、真正活躍在一線的科研人員得到他們應該得到的資源，非理性的資源分配體系所造成的負面影響不僅僅是資源的浪費，更是不正學風的根本原因。要徹底打破靠資歷、靠宣傳、靠關系和「分蛋糕」的資源分配體系。

要積極推進開放和合作共贏的理念

科學研究本來就是所有科研人員共同的事業。在AI for Science的新框架下，「自給自足、小農作坊」的研究模式將難以適合未來發展的需求。只有合作共贏，才能充分調動科研人員的潛力和積極性，加快提升整體科研創新的能力。

要加強學術風氣的建設

學術風氣是決定中國科技創新能不能成功的最重要的因素之一，也是決定AI for Science在中國能不能順利發展的最重要的因素之一。要積極鼓勵年輕人提出新思想、新觀念，鼓勵對各種學術觀點的質疑和挑戰，積極倡導實事求是、有一說一的風氣。讓學術會議和學術討論回歸其本來的目標。讓一些專註於搞虛假宣傳、在領導面前畫大餅的風氣在中國失去生存的空間。

希望中國科學家珍惜目前AI for Science的良好發展勢頭，緊密合作，緊緊抓住AI for Science這個千載難逢的機會，爭取在下一輪的科技創新浪潮中走在前沿，為人類的科技發展作出應有的貢獻。

鄂維南 中國科學院院士。北京大學講席教授，北京科學智能研究院院長。主要從事計算數學、套用數學，機器學習及其在力學、物理、化學和工程等領域中的套用等方面的研究。

文章源自： 鄂維南. AI助力打造科學研究新範式. 中國科學院院刊, 2024, 39(1): 10-16. DOI: 10.16418/j.issn.1000-3045.20231224001