當前位置: 華文世界 > 科技

拓展軟材料領域:機器學習和人工智能的嶄新套用還有哪些?

2024-07-26科技

如今,研究人員不斷把人工智能還有機器學習裏新出現的以及成熟的工具,跟化學科學裏的成熟辦法融合起來,從而打造出強大、高效,有些時候還能自主執行的分子發現、材料工程以及過程最佳化的平台。

這篇綜述把支撐這些技術的基本原理做了總結,還著重講了最近在自主材料發現、遷移學習以及多保真主動學習裏的成功運用。

化學空間,就是把所有可能的分子都列出來,這實際上是沒有盡頭的。分子量達到約 1000Da 的藥物樣分子,數量估計在 1013 到 10180 之間。而相比之下,能看到的宇宙裏質子數估計才只有 10 個 80 。

這種超大的尺寸對於分子的發現和設計,既有益處也有壞處。好處是能讓找到具有所需特性的分子候選物有很大的範圍,壞處是在有效地探尋這個空間時存在難題。這種探尋可能會被像分子量、熱力學穩定性、可合成性以及毒性這樣的實際標準所限制,不過大多數時候,透過實驗或者計算進行全面的探尋還是不太現實的。

近些年來,在多功能聚合材料、有機電子學還有合成酶這些方面,軟材料和生物材料的發現、設計以及工程化都有了很明顯的進步。

這一進步很大程度上是因為把資訊學、數據科學還有機器學習的方法給整合並采用了,從而加快並達成了材料的表征、分析、工程以及設計。

促使這一趨勢形成的是廉價商品的計算能力能用上,特別是厲害的圖形處理單元(GPU)卡以及雲端運算,讓擁有大型訓練數據庫的領域有了很大的進步。

比如說,現在深度又復雜的影像辨識網絡能夠以超厲害的準確度給影像分類,風格傳輸網絡能把影像變成歷史畫家的那種風格,生成影像網絡能夠弄出跟不存在的真人很像的人臉影像,還有生成文本網絡能產出(至少在這兩位工程師看來!)跟人類詩人差不多的東西。

在硬材料計算工程裏,人工智能()跟機器學習的套用,要比在軟材料裏更成熟、更先進。

硬質材料的結構、性質和行為在很大程度上是固定的,這是能量因素決定的。而軟材料呢,構象變形和構型熵對它起著重要作用。

硬材料團隊更喜歡用差不多的辦法體系,基本是依靠電子結構方法,還花了好多時間和精力去建立、打理大型硬材料內容的數據庫,這數據庫對團隊裏的大多數成員都有用。

相較而言,軟材料領域往往會在更寬泛的長度範疇裏思考材料,從原子一直到肽,再到聚合物,還有細胞與器官,並且運用更大型的理論和計算手段,像分子動力學、蒙特卡羅、有限元計算、晶格波茲曼以及相場建模,時間跨度從皮秒能到數年。

這種方法與系統的多樣化是這一領域好看又讓人興奮的一點,不過從某種程度來講,或許會妨礙規模經濟的發展,還有維護那種能充分滿足廣大使用者群需要的大型數據庫。

薩頓提到人工智能的「慘痛教訓」,說把領域知識和專業知識融入機器學習演算法,最終會被更強的計算和用更大數據庫訓練的更簡單演算法的套用給取代。讓人高興的是,最近有了少量的軟材料數據庫和聚合物基因組,不過軟材料社區會不會受到刺激,去投資開發這一課程需要的數據庫基礎設施水平,還得等著看。

在接下來能預見到的日子裏,咱們覺得最能賺錢、最能成功的辦法就是把領域和數據科學有條理地綜合起來。

咱們來瞅瞅機器學習、數據驅動建模還有自主實驗(AE)在軟材料跟生物材料的發現、設計以及最佳化方面的套用,最近都有啥新進展。

咱們把支撐這些技術的基本原理給弄明白了,還探討了它們跟化學、生物分子、機械以及材料工程分支的融合,用來達成或者加快材料或者分子的設計。

最後,咱們瞧瞧這令人興奮還發展迅速的領域裏存在的挑戰跟機遇。

主動學習(也就是順序學習)策略給出了一個有原則的協定,靠這個協定來引導對化學空間的探索。這些活動的目的,能是把化學空間上模型的不確定性降到最小,也能是找出滿足某些效能閾值的分子,或者確認讓效能達到最大的條件。從形式上說,實驗或者計算是由一些特征在特征空間裏定義的。

這些可能是分子的一些性質,像分子量啦或者極化率啥的,不過也能涵蓋處理方面的變量,比如說退火溫度或者旋塗的速度。

就算使用者能提前按照化學直覺、之前的經驗或者便利性來指定,數據驅動的工具也能從可能的特性池裏做合理的向下選擇,或者直接從數據裏學習特征。而且,主動學習得包含一個在結果空間裏定義的目標內容 y ,這是由實驗或者計算產生的。

常見的主動學習框架是貝葉斯全域最佳化,也就是貝葉斯最佳化(BO),這是一種最優實驗設計,它透過叠代的兩步來進行:(a)依據可用數據以及任何現有的知識訓練代理模型來做預測;(b2)用獲取函數詢問這個模型,從而為實驗或者計算篩選確定下一個候選者。

模型 f 是靠訓練數據去學習的,而且能由任意數量適用於這些數據的回歸或者分類模型來確定,像線性回歸、支持向量回歸、k - 最近鄰,還有人工神經網絡都可以。

主動學習的熱門選擇裏頭,特別合適的是非參數模型,像高斯過程回歸。不過呢,模型的選擇跟系統的關系很大,GPR 比較適合平滑函數,而基於樹的那些方法更適合像相圖這種高度不連續的系統。

關鍵在於,評估代理模型的成本比模擬或者實驗低多了,能在每批實驗或者模擬的間隔裏,在更大的範圍進行預測。

業務物件的核心規劃要素是采集功能,又叫決策制定政策,這個能把在任意給定位置開展實驗的價值給量化了。

采集函數的挑選能讓研究者清楚地給活動排個優先級,一般來說,這主要是為了平衡探索參數空間以及利用參數空間裏高效能的區域。

比如說,「最大變異數」會先看重沒探測過區域的采樣,而「預期改善」則是去評估在某個位置采樣能給出比之前所觀察到的最大值還大的值(在最大化任務裏)的這種可能性。

一些工作專註在給不同的采購功能和代理模型做基準測試,不過材料系統存在差異,這可能會讓得出普遍結論變得困難。

說到底,主動學習形成了一個好的迴圈:多做些測量能讓訓練數據增多,從而得出更準確的代理模型,而變好的代理模型能讓參數空間的探尋更出色。

要是代理模型給出的引導比隨機或者直覺引導的搜尋更好,那麽原則上,在主動學習協定裏,沒必要非得有特別高精度的模型才能實作明顯的效率提升。

這些技術啥數量、啥速度的數據都能用,不過呢,最近因為自動化儀器還有計算硬件進步帶來了高通量(虛擬)分子篩選技術,所以這些技術就流行起來啦。

在軟材料工程這一塊兒,BO 指導的高通量實驗被用在了發現高玻璃化轉變溫度聚合物上面。

預期用於治療二型糖尿病的二肽基肽酶-4拮抗劑的設計,還有控制有效載荷釋放的動力學穩定乳液的工程。

預測那些蛋白結合親和力高的配體,針對冠狀病毒疾病 2019(新冠肺炎)的療法,還有用於分子建模的原子間勢的參數化。

在軟物質的研究裏,好多系統都有著兩方面的難題。一是得靠實驗明確湧現行為的關鍵特點,二是在材料構成或者處理的細節上,復雜得很。

雖說好多學科都碰到了這些挑戰,可軟物質系統通常對細微的處理條件有著特別復雜的依賴,而且在空間跟時間方面存在內在的多尺度表現。

這些挑戰讓物理實驗變成了限制弄懂這類系統的關鍵所在。

最近有一種能解決實驗造成瓶頸問題的系統辦法,那就是自主實驗(AE),或者說是把機器人技術跟主動學習 AE 相結合。

自動化能讓人做實驗比手動的更快、更一致,用機器學習來挑實驗能讓人有系統地利用所有能用的資訊,把給定實驗給使用者定的目標帶來有用進展的機會最大化。

換個說法,AE 系統就是主動學習指導實驗在物理方面的呈現。

因為 AE 系統到處都有,就有了一些用來形容它的術語,像自動駕駛實驗室、機器人科學家,還有人工化學家。

2004 年研發出來的用於研究酵母遺傳學的自主系統,被公認為是首個 AE 系統。

從這次演示開始,聲發射系統就拓展到了材料研究、機械方面,還有最近的軟材料這塊兒事實上。

軟材料對 AE 特別適用,好多軟物質系統能在解決方案階段去探究,這樣一來,把現有的硬件用到高通量或者自動化實驗就比較容易。早期的例子有用於合成水性聚氨酯分散體,還能表征其固體含量和粒度的自動化系。基於流動的化學系統特別適合動態改變反應條件,還能提供線上光學讀出。

所以呢,連續流動系統早就被廣泛當成自主發現的平台,還跟納米到皮升級流體樣品基於乳液的限制結合起來了,就是為了在沒啥先驗知識的條件下研究量子點的合成。

透過這種方法找到了 11 種不一樣的合成鈣鈦礦量子點納米顆粒的配方,這些納米顆粒有著能夠精準調節的發射特性。

參考的文獻

【軟件與生物材料工程】