當前位置: 華文世界 > 科學

中科院羅小舟團隊:實作多種酶動力學參數的預測

2024-01-18科學

作者:李寶珠

編輯:三羊

中國科學院深圳先進技術研究院羅小舟團隊提出了,基於酶動力學參數預測框架 (UniKP),實作多種不同的酶動力學參數的預測。

眾所周知,生物體內的新陳代謝是透過各種各樣的化學反應來實作的。這些反應如果在體外進行,通常需要在高溫、高壓、強酸、強堿等劇烈條件下才能發生。

但在生物體內,新陳代謝反應卻可以在極為溫和的條件下高效進行,這主要歸功於重要的有機催化劑——酶。

作為貫穿高中生物學科的高分知識點,酶的特性或許已經烙印在大家記憶深處——催化效率高、專一性強、作用條件溫和等。更重要的是,酶與很多人體疾病密切相關,還可以用於診斷與治療。一直以來,人們在深入研究酶分子結構與功能的同時,也在持續探究酶促反應的影響因素。

研究酶促反應速率以及各種因素對酶促反應速率影響機制的科學,被稱為「酶促反應動力學」, 在研究中,酶在特定反應中的催化效率通常透過酶動力學參數 (enzyme kinetic parameters) 來衡量。

酶促反應動力學參數包括了酶周轉數 kcat、米氏常數 Km 和催化效率 kcat / Km 等,目前主要依賴濕實驗來進行參數測量,但這一過程耗時且成本高,使得實驗測得的酶動力學參數資料庫規模相對較小,而數據的稀缺則會限制下遊系統生物學和代謝工程領域的發展。

針對於此, 中國科學院深圳先進技術研究院合成所羅小舟團隊提出了,基於預訓練大語言模型和機器學習模型的酶動力學參數預測框架 (enzyme kinetic parameters prediction framework,UniKP)。

該框架僅透過給定酶的胺基酸序列和受質的結構資訊,就可以實作多種不同的酶動力學參數的預測。此外,研究團隊進一步將環境因素納入考量,提出了基於 UniKP 的雙層框架 EF-UniKP,實作了更準確地酶動力學參數的預測。


該研究成果已發表於 Nature Communications

論文連結:
https://www.nature.com/articles/s41467-023-44113-1
GitHub連結:
https://github.com/Luo-SynBioLab/UniKP

關註公眾號,回復「UniKP」下載完整論文

代表性數據集驗證模型價值

研究團隊選擇了 4 個具有代表性的數據集來驗證 UniKP 的效能及價值。

首先是 DLKcat 數據集, 研究人員篩選後得到了 16,838 個樣本,包括來自 851 個生物體的 7,822 個獨特蛋白質序列和 2,672 個獨特受質。數據集按照 9:1 的比例劃分為訓練集和測試集。

其次是 pH 和溫度數據集, 其中 pH 數據集包含 636 個樣本,由 261 個獨特的酶序列和 331 個獨特的受質組成;溫度數據集包含 572 個樣本,由 243 個獨特的酶序列和 302 個獨特的受質組成。數據集按照 8:2 的比例劃分為訓練集和測試集。

第三是米氏常數 (Km) 數據集, 由 11,722 個樣本組成,包括酶序列、受質分子指紋圖譜和相應的 Km 值。數據集按照 8:2 的比例劃分為訓練集和測試集。

第四是 kcat/Km 數據集, 包含 910 個由酶序列、受質結構及其相應的 kcat/Km 值組成的樣本。

兩大關鍵元件:表示模組+機器學習模組

研究團隊提出的 UniKP,能提高根據給定的酶序列和受質結構預測 kcat、Km 和 kcat / Km 的準確性。 UniKP 框架由兩個關鍵元件組成——表示模組 (representation module) 和機器學習模組。

表示模組的作用是將復雜的酶和受質資訊轉換為機器學習模型能夠理解和處理的向量表示, 以便後續的機器學習模組進行預測和分析。

其中,酶序列表示模組 (Enzyme sequence representation module), 使用預訓練語言模型 ProtT5-XL-UniRef50 對酶的資訊進行編碼,每個胺基酸透過該模型被轉換為一個 1,024 維的向量,並透過均值池化 (averaged by mean pooling) 進行處理,最終生成一個 1,024 維的向量來表示整個酶的序列資訊(如上圖所示)。

受質結構表示模組 (Substrate structure representation module),使用預訓練語言模型 SMILES Transformer model 對受質的資訊進行編碼。受質結構被轉換為 SMILES 格式,進而透過預訓練的 SMILES 轉換器生成一個 1,024 維的向量,並對最後一層和倒數第二層的第一個輸出進行均值和最大池化,最終生成一個 1,024 維的向量來表示受質的結構資訊(如上圖所示)。

針對機器學習模組, 研究團隊對比了 16 種不同的機器學習模型,以及 2 種代表性的深度學習模型——摺積神經網路和迴圈神經網路。

結果顯示,整合性模型表現出更好的效能,尤其是隨機森林 (random forests) 和極端隨機樹 (extra trees) 顯著優於其他模型,其中極端隨機樹表現最佳 (R²=0.65)。如上圖所示,機器學習模型以連線表示向量為輸入,生成預測的 kcat、Km 或 kcat / Km 值。

此外,研究人員將環境因素納入考量,生成了最佳化的預測框架,並在涵蓋 pH 和溫度資訊的兩個數據集上進行了驗證(如上圖所示)。

最後,UniKP 透過不同的重新加權方法來調整樣本權重分布,從而為高價值預測任務生成最佳化預測結果(如上圖所示)。

雙層框架——EF-UniKP

作為雙層框架,EF-UniKP 包含一個基礎層 (base layer) 和一個元層 (meta layer),如下圖所示:


EF-UniKP 架構

基礎層包含兩個獨立模型——UniKP 和 Revised UniKP。UniKP 以蛋白質和受質的連線表示向量作為輸入,而 Revised UniKP 使用蛋白質和受質的連線表示向量、結合 pH 或溫度值作為輸入。

元層包括一個線性回歸模型,使用來自 UniKP 和 Revised UniKP 的預測 kcat 值來預測最終的 kcat 值。

R² 值高出20%,EF-UniKP 完勝

研究團隊在 kcat 預測任務上使用 DLKcat 數據集對 UniKP 框架進行了驗證,該數據集包含 16,838 個樣本。在 5 輪隨機劃分的測試集驗證中,UniKP 的 R² 值為 0.68,比 DLKcat 提高了20%。此外,在測試中,DLKcat 的最高值比 UniKP 的最低值低了 16%,進一步證明了 UniKP 的穩健性。


UniKP 在 kcat 預測中的表現

隨後,研究團隊建立了涵蓋 pH 和溫度資訊的兩個數據集來對 EF-UniKP 進行了評估,並分別按照 8:2 的比例劃分為訓練集和測試集。

在測試集上, EF-UniKP 相較於 UniKP 和 Revised UniKP 表現更佳。 在 pH 數據集測試中,EF-UniKP 的 R² 分別高出 20% 和 8%,在溫度數據集測試中,EF-UniKP 的 R² 分別高出 26% 和 2%。在酶和受質至少有一個不在訓練集的測試中,EF-UniKP 在 pH 數據集上的 R² 值相較於 UniKP 和 Revised UniKP 分別高出 13% 和 10%,在溫度數據集上分別高出 16% 和 4%。


EF-UniKP相較於UniKP和Revised UniKP表現更佳

蝴蝶模式:拉通科研與產業

羅小舟課題組背後的中國科學院深圳先進技術研究院(簡稱「深圳先進院」)是由中國科學院、深圳市人民政府及香港中文大學於 2006 年 2 月共同建立的,由 8 個研究所組成:

* 中國科學院香港中文大學深圳先進整合技術研究所

* 生物醫學與健康工程研究所

* 先進計算與數位工程研究所

* 生物醫藥與技術研究所

* 腦認知與腦疾病研究所

* 合成生物學研究所

* 先進材料科學與工程研究所

* 碳中和技術研究所(籌)

羅小舟博士是在 2019 年完成了在加州大學柏克萊分校的博士後研究,回國並正式加入深圳先進院合成生物學研究所,任職研究員。同年,其作為合夥人之一籌備的 「森瑞斯生物」也在深圳正式成立,專註於合成生物技術的研發及其在各領域的創新套用。2022 年 3 月,公司完成了近億元人民幣的 A 輪融資。

羅小舟博士「科研」與「產業」兼顧的發展路徑恰恰與深圳先進院的宗旨完美契合。據介紹, 深圳先進院探索了「0—1—10—∞的蝴蝶模式」, 這也在森瑞斯生物得到了很好的實踐。

在發現液體橡膠 HVR 和大麻素 CBD 可共用同一自主智慧財產權的底盤細胞後,森瑞斯利用其前期已開發的數個針對釀酒酵母改造的工藝方法,再結合內部的合成生物元件庫, 在 6 個月時間內就將液體橡膠 HVR 產量提升到了可商業化的水平。

這其中,羅小舟博士與其導師、同時也是森瑞斯的發起人之一 Jay D. Keasling 院士合作,在 2019 年便成功打通大麻素的生物全合成通路,成為了其商業化的基礎。

羅小舟表示,實作管線的快速產業化有著兩大關鍵因素: 一是學術界和產業深度融合, 學術界有效搭建產業界所需化合物的 0-1 的合成通路; 二是標準化的生產工藝和工具, 覆蓋從 0-1 的學術研究、1-10 的工程研發、到 10 - 無限工業化放大這三個階段,打造合成生物的生產線,提升 1-10 的研發效率。

參考資料:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw