諾貝爾化學獎也花落AI領域！剛剛，AlphaFold開發者等人獲獎｜深度解讀 - 科技

2024-10-09科技

轉自：藥明康德

就在人工智慧學者出人意料地摘得2024年諾貝爾物理學獎之後，台北時間10月9日下午，諾貝爾基金會宣布將今年的諾貝爾化學獎頒發給了三位研究領域與人工智慧相關的科學家。

其中，被譽為「AlphaFold之父」的谷歌DeepMind公司Demis Hassabis博士和John Jumper博士因為蛋白質結構預測獲獎，而華盛頓大學的David Baker教授因計算蛋白設計榮獲殊榮。他們開發的AI解決方案成功解決了50年來蛋白質結構預測領域的重大挑戰，加速了生物醫藥領域的科學發現。

▲ David Baker教授、 Demis Hassabis博士與John Jumper博士（圖片來源：諾貝爾獎官網）

下面，藥明康德內容團隊將與大家一道回顧這個革命性的AI解決方案的誕生和成長史。

AlphaFold的故事

首先，讓我們來看兩位共同主導了AlphaFold開發的獲獎者的故事。其中， Demis Hassabis博士是DeepMind的創始人兼執行長，同時也是AlphaFold計畫的負責人。John Jumper博士則是AlphaFold計畫的首席高級研究員。

深度學習演算法使蛋白結構預測領域實作飛躍

我們都知道，蛋白質是維持我們生命所必需的龐大而復雜的物質。我們身體的幾乎所有功能，例如收縮肌肉、感知光線或將食物轉化成能量等，都需要一種或多種蛋白質來完成。而蛋白質具體能做什麽就要取決於它獨特的3D結構了。

然而，純粹基於其基因序列推測蛋白質的3D結構是一項非常具有挑戰性的復雜任務。這是因為我們的DNA通常只包含蛋白質中胺基酸殘基的序列資訊，而這些胺基酸殘基形成的長鏈將會折疊成錯綜復雜的3D結構，加上蛋白質越大，需要考慮的胺基酸之間的交互作用就越多，對其結構的建模過程就會更加復雜和困難。

在過去的數十年中，科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或X射線晶體學等技術在實驗室中確定蛋白質的形狀，但這些方法都需要透過大量的試錯才能獲得最終的結果，這可能需要花上好幾年時間以及大量的資金。幸運的是，得益於基因測序成本的快速降低，基因組學領域的數據變得豐富了起來。一些科學家們開始利用AI技術開發深度學習演算法，在基因組學數據的基礎上對蛋白質結構進行預測。在此基礎上，AlphaFold誕生了。

圖片來源：123RF

2018年12月，DeepMind宣布推出全新的AlphaFold系統，能夠預測並生成蛋白質的3D結構。在當年的國際蛋白質結構預測競賽（CASP）上，初次登場的AlphaFold就成為了最大的黑馬，以絕對的優勢擊敗了上百位的參會選手，拔得頭籌。在比賽中，AlphaFold成功預測了給定的43種蛋白質中的25種的最準確結構，而同一類別的第二名參賽隊伍只預測出了43種中的3種。

和以往依賴預先構想邏輯的傳統人工智慧方法不同的是， AlphaFold並未使用已經明確結構的蛋白質3D模型作為樣版，而是透過將機器學習作為蛋白質結構預測網路的核心組成部份，讓AlphaFold從數據中自行發現模式規律。

DeepMind團隊使用的方法都以深度神經網路為基礎，從基因序列中預測蛋白質的兩種物理性質：胺基酸對之間的距離及連線這些胺基酸的化學鍵之間的角度。首先，研究小組訓練了一個深度神經網路，來預測蛋白質中每對胺基酸殘基之間距離的分布情況。然後，研究人員將這些數值轉化為評分，來對蛋白質結構的精確程度進行評估。同時，研究人員還另外訓練了一個神經網路，利用這些距離數值來評估預測結構與真實結構的接近程度。

不僅如此，DeepMind的研究人員還在這些評分函式的基礎上，使用了兩種全新的方式來最佳化蛋白質結構評分：他們使用了一個生成神經網路，不斷生成新的蛋白質片段來反復替換一段舊的蛋白質結構，這樣一來，蛋白質結構的評分就被不斷提高了。另外，研究人員還使用了一種名為梯度下降的方式來讓AlphaFold預測的結構變得高度精確。梯度下降是一種機器學習中常用的數學技術，用來實作漸進式的細微改進。研究人員將這項技術用於整個蛋白質鏈，而不是結構中組裝前必須分開折疊的片段，降低了預測過程的復雜性。

AlphaFold再次前進演化加速科學發現

盡管AlphaFold的首戰告捷，但DeepMind的研究人員並不滿意：他們希望得到一種對於實驗人員更加有用的工具，誤差小於1埃米（原子的大小）。

經過多輪的偵錯和集思廣益，DeepMind的研究團隊在原來的演算法基礎上成功構建出了AlphaFold2。在 2020年的CASP 上，DeepMind的AlphaFold2系統表現驚艷，在接受檢驗的近100個蛋白靶點中，AlphaFold2對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。有些情況下，已經無法區分兩者之間的區別是由於AlphaFold2的預測出現錯誤，還是實驗手段產生的假象。

▲AlphaFold2根據胺基酸序列預測的蛋白結構與實驗手段解析的結果幾乎完全重合（綠色，實驗結果；藍色，計算預測結果；圖片來源：DeepMind Blog）

2021年，Hassabis博士和Jumper博士與歐洲分子生物學實驗室的歐洲生物資訊學研究所（EMBL-EBI）合作，釋出了AlphaFold預測的蛋白結構資料庫（AlphaFold Protein Structure Database）。這個資料庫涵蓋了人類和20種常用模式生物的35萬個蛋白質結構，並且對98.5%的人類蛋白質結構進行了準確預測 ——要知道在此之前，科學界解析的蛋白質結構只覆蓋了人類蛋白序列17%的胺基酸。歐洲生物資訊研究所主任Ewan Birney博士稱該資料庫為人類基因組圖譜釋出以來最重要的資料庫之一。人工智慧預測蛋白質結構領域的一系列突破，也被【科學】評選為 2021年的年度科學突破。

而更令人激動的是，他們開發的這一資料庫將免費提供給全球的科研人員開放使用！許多科學家和生物醫藥公司的研究員興奮地表示，這一系列突破將加速新藥開發，並為基礎科學帶來全新革命。

2022年，DeepMind與EMBL-EBI團隊的合作又迎來了一項巨大的飛躍。 AlphaFold對蛋白質結構的預測不再局限於人類與模式生物，而是拓展至涵蓋了動植物、細菌等的100萬個物種。不僅如此，其預測的蛋白質結構數量也提升了數百倍。 AlphaFold2已對超過2億種蛋白質進行了結構預測——幾乎是科學界已知的所有蛋白質。同樣的，這2億種蛋白質的結構預測數據依然向公眾免費開放，使研究人員能夠像使用谷歌搜尋資訊一樣搜尋蛋白質的結構，為研究人員即時提供他們正在研究的任何蛋白質的預測模型，大大減少了他們曾經需要花在確定蛋白質結構上的時間。

圖片來源：123RF

目前，這些數據已經在瘧疾疫苗開發、解決抗生素耐藥性問題與塑膠汙染等場景中得到套用，並能夠幫助研發人員加速新藥研發。除此以外，該模型還具有加速生物學各個研究領域的潛力，其套用前景正等著更多才華橫溢的科學家們來盡情開發。

David Baker與Rosetta的故事

提到蛋白質從頭設計，華盛頓大學蛋白質設計研究所所長David Baker博士的大名可謂是無人不知。不過，可能很少有人知道，在走上生物化學研究的道路前， Baker 的專業是研究哲學。 1983年，一堂關於蛋白質折疊問題的生物學課程徹底改變了他的人生軌跡。自那以後，這個眾多科學家前赴後繼嘗試破解的生物學難題便成了他畢生的研究課題。

小小的蛋白質裏藏著天大的疑問

在生物體內，蛋白質讓很多科學家們著迷。這種分子的尺寸只有奈米大小，復雜程度卻可以超過任何一台人造的機器，大自然的精妙由此也可見一斑。

1983年，在哈佛大學學習哲學的 Baker 在一堂生物學課程上了解到蛋白質折疊問題。此前的科學家們透過試驗發現，這些復雜的蛋白質只由20種簡單的胺基酸經過排列組合拼接而成，而一條胺基酸序列就已包含了它能形成蛋白質的所有結構和活性資訊。就像有設計圖紙一樣，一條胺基酸序列可以自發折疊成唯一的三維結構，然後在細胞內發揮特定的功能——有的可以結合DNA，控制基因的開關；有的可以辨識病原體，啟動免疫反應。在這些現象背後，一個巨大的問題隨之浮現：一條胺基酸序列從理論上來說可以有無數種折疊方式，那為什麽它能夠自發折疊成唯一的三維結構呢？

圖片來源：123RF

自那堂課後， Baker 對這個數十年來困擾了無數科學家的難題產生了極大的興趣，甚至不惜轉換專業在生物學領域從頭開始學習。而當他和導師提起他想要對這個難題發起挑戰時，他的導師勸他不要頭腦發熱，因為「沒人知道這是怎麽回事」。

聽從了導師的建議， Baker 將這一念頭短暫封存，並在未來的諾獎得主Randy Schekman教授課題組獲得了博士學位，主攻細胞生物學。博士後期間， Baker 接觸到使用電腦科學來進行結構生物學研究的方法。在這個過程中，他發現使用電腦解析晶體結構並不是他擅長的，但他卻萌生出了另一個想法，或許電腦可以幫他實作那個他始終放不下的夢想——解開蛋白質折疊之謎。

向夢想靠近，開發出蛋白質結構預測程式

1993年， Baker 成功獲得了華盛頓大學生物化學系助理教授的職位，開始獨立工作。在他招收第二個學生後，他建議學生借助電腦的力量做蛋白質結構預測相關的課題。1996年，他與研究生們開始編寫一個叫做Rosetta的程式，這個程式有潛力根據一段胺基酸序列解出蛋白質的結構。

在自然界中，為了保持穩定，蛋白質總是折疊成具有「最低自由能」的形狀。這就好像水會從高處往低處流，然後停留在那裏一樣。不過利用電腦預測蛋白質結構也並沒有想象中那麽簡單。由於每個胺基酸至少有三種不同的構象，那麽一個僅含有100個胺基酸的蛋白質，其可能的結構就高達3的100次方種，這對電腦來說都是個難以處理的運算量。

不過， Rosetta的程式設計用了一種十分巧妙的方法，它不是透過窮舉法從這些天文數位般的可能結構中挨個尋找自由能最低的形狀，而是先分析蛋白質的生物物理特性，模擬出一個大致的形狀，然後進行微調，只留下自由能更低的結果。這樣一來，研究人員們可以更快預測出蛋白質的結構。

好訊息是，Rosetta的表現十分驚艷。自1994年起，和 Baker 一樣想要解開蛋白折疊之謎的生物學家們會定期聚在一起，檢驗各自的成果：就像考試一般，他們會拿到一個蛋白質的序列，然後預測出它的結構。隨後，這些預測結構會和已透過實驗方法得到解析但尚未公開的真實結構進行比對，看哪一個結構更為接近。在這個被譽為蛋白質結構領域「奧林匹克」的活動中，Rosetta程式總是最有力的競爭者，並且具有統治性的優勢。

開發Rosetta的意外收獲

在Rosetta誕生的過程中， Baker 還有許多意料之外的收獲。盡管Rosetta的設計經過最佳化，但預測蛋白質折疊所需要的運算量依然巨大。最開始， Baker 只能透過不停購置新的電腦裝置來擴大計算力，後來，新買的電腦把實驗室的空間占滿了卻依然無法滿足他們的需求。迫於這樣的壓力， Baker 和他的學生們想出了一個絕妙的解決方案——借助互聯網，邀請世界各地的人們用他們電腦的閑置算力來幫助進行計算。

2005年， Baker 團隊啟動了一個名為Rosetta@home的計畫，基於他們開發的Rosetta軟體包，利用分布式計算的力量來解析蛋白質結構。令人感到意外的是，這些「網友」們還給 Baker 發去了反饋意見，表示電腦折疊沒有他們手動折疊來得更好。更巧的是，當他與一名電腦科學家聊起這些話題時，倆人靈感迸發，決定從Rosetta@home出發開發一款遊戲，讓全世界對蛋白折疊感興趣的人能夠發揮他們的才華，參與到蛋白質折疊的解謎遊戲中。

這款名為Foldit的遊戲由於能幫助學生更好地了解蛋白質的三維性質以及蛋白質結構和功能間的關系，已被一些大學引入課堂。更令人吃驚的是，一些該遊戲的高級玩家還曾透過這款遊戲破解了一種逆轉錄病毒的蛋白結構，並將成果發表在了【自然】雜誌子刊上。

▲Foldit玩家確定M-PMV逆轉錄病毒蛋白酶結構的過程（圖片來源：參考資料[19]）

除此以外，與Foldit同時期誕生的還有一個名為Rosetta Commons的學術團體。這個團體的成員包括許多高校和研究機構的人員，其中很多都在 Baker 的實驗室工作過。除了日常的交流合作，他們會定期舉辦會議分享最新成果、討論如何進一步最佳化Rosetta，並開設訓練營培訓那些對Rosetta感興趣但不知道如何使用的人。

從預測到模擬，破解上帝之手的奧秘

雖然 Baker 最初的研究方向是預測蛋白質的結構，但在這個方向上取得突破之前，他已著手向另一個截然相反且更具挑戰性的領域——「蛋白質的從頭設計」發起了沖擊。相比於預測蛋白質的結構，從頭設計出一個蛋白質需要向弄清蛋白質折疊的原理再邁進一步。這要求科學家們能根據一個具有特定形狀的蛋白，倒推出其DNA序列。

從某種意義上講，從頭設計蛋白，要比預測蛋白結構難上幾個數量級。假設要設計一個由100個胺基酸組成的蛋白質，每一種胺基酸又有20種截然不同的可能，使將得可能的胺基酸序列總數高達20的100次方。這個數位究竟有多大？它比整個宇宙中原子的總數還要多！

由於 Baker 在Rosetta的開發中已經取得過一定的經驗，這次再開發從頭設計蛋白質的方法就有了良好的基礎。從DNA序列到蛋白質結構，Rosetta能找到能量最低的形狀。那麽反過來，Rosetta也能用來推導為了構成這一形狀所需的蛋白元件。在此基礎上，研究人員們還學會了如何像拆解樂高玩具一樣，將一個蛋白質拆成螺旋或者桶裝的小塊，分塊擊破。

圖片來源：123RF

2003年， Baker 的團隊設計出了第一個原本並不存在於自然界中的蛋白質，它被命名為Top7。這當然是一個重要突破，但卻沒有開辟一個嶄新的時代。 Baker 實驗室的成員開玩笑說Top7只是一塊從熱力學角度上看很穩定的「石頭」。因為他們從頭設計出的這個蛋白質雖然折疊成了研究人員們想要它折疊的模樣，但不具有任何功能。

7年後， Baker 的一名博士後研究員做出了改進。他將抗體的一部份連線到了人造蛋白上，使人造蛋白首度具有了功能：新合成的蛋白能辨識流感病毒，有望成為一種新的藥物，但這多少有些「作弊」的意思，畢竟最重要的那部份來自天然的抗體。

接下來的幾年時間， Baker 的團隊對Rosetta進行了更多的最佳化。如今， Baker 的實驗室，以及他的合作夥伴們已能設計出多種不同的蛋白，有朝一日，人類完全獲得「上帝之手」的能力將不再是夢想。

不過到目前，從頭設計蛋白依然是一個不斷試錯的工作，需要大量的資源投入。以設計結合蛋白為例，從流程上看，科學家會首先用Rosetta模擬出所感興趣蛋白表面上的一個「口袋」，然後再設計出大量不同的螺旋結構，形成穩定骨架。這些骨架上含有一些特定的胺基酸，有可能會與「口袋」進行完美的契合。這個工作就像是在一把鑰匙上不斷打磨，最終使其完美地對應一把鎖。

隨後，研究人員們會根據設計合成所要的DNA序列，將其引入細菌細胞，期望它們能夠產生所需要的蛋白。獲取這些蛋白後，他們還會做兩個測試：評估這些蛋白是否能如預期般折疊，以及折疊後的蛋白是否能如預期般結合特定蛋白。通常來講，人工設計的蛋白極少能同時滿足這兩個條件。而那些脫穎而出的蛋白，則會成為新一輪設計與篩選的起點，直至獲得最佳的構象。

遇勁敵，取長補短開啟新一輪前進演化之路

在2018年以前， Baker 及其團隊開發的Rosetta在蛋白質結構預測領域完全沒有對手。而那一年，AlphaFold的出現令 Baker 嗅到了危機。盡管18年的蛋白質結構預測競賽依然是Rosetta拔得頭籌，但首次亮相就獲得了第二名的AlphaFold令 Baker 見識到了機器學習的過人之處。於是，他要求團隊緊跟時代的風向，加緊研究機器學習。 Baker 的預感沒有錯，在2020年的競賽中，第二代AlphaFold擊敗了Rosetta，一舉成名。

不過， Baker 率領著團隊很快就追趕了上來。2021年7月15日，當DeepMind公司在【自然】雜誌上發表論文，公開了「AlphaFold2」的原始碼，並且詳細描述了它的設計框架和訓練方法時， Baker 的團隊也於【科學】雜誌上介紹了其開發的RoseTTAFold演算法。

RoseTTAFold的神經網路能夠同時考慮蛋白序列的模式、蛋白中不同胺基酸之間的交互作用，以及蛋白質可能出現的3D結構。在這個系統中，一維、二維和三維的資訊能夠相互交流，讓神經網路綜合所有資訊，決定蛋白質的化學組成部份和它折疊產生的結構之間的關系。

▲RoseTTAFold系統結構簡介（圖片來源：參考資料[12]）

研究人員表示，RoseTTAFold系統在解析蛋白質3D結構方面的表現與AlphaFold2的水平幾乎相當，在有些蛋白上甚至優於AlphaFold2。利用來自AlphaFold的公開資訊，也得益於多年來對於機器學習的積累，這個演算法的開發只用了區區幾個月的時間。

下一站，劍指新藥開發

作為蛋白質從頭設計的先鋒， Baker 希望透過「蛋白質設計革命」開啟一個全新的時代，我們將學會使用一種前所未有的方式來操控生物分子，例如從頭設計出全新的藥物、疫苗、疾病療法等，拓展新藥研發的邊界。

2022年8月， Baker 及其團隊在【細胞】雜誌上發表論文，他們已利用AI技術平台精準地從頭設計出能夠穿過細胞膜的大環多肽分子，開辟了設計全新口服藥物的新途徑。同時， Baker 團隊成員聯合建立的初創公司Vilya也正式亮相，並從著名風投機構ARCH Venture Partners獲得5000萬美元A輪融資。利用這一技術，跳過高通量篩選、直接合成候選藥物的策略不再遙不可及！

今年以來， Baker 及其團隊已在【自然】和【科學】雜誌上發表了數篇重磅論文，其開發的全新的蛋白質從頭設策略法可靶向不可成藥靶點，並能實作按需設計生物分子，為蛋白設計提供了更廣闊的可能性。

華盛頓大學蛋白設計研究所首席戰略及營運官Lance Stewart博士是David Baker教授長期的合夥夥伴。在2023年藥明康德全球論壇上，他指出：「現在的新技術讓我們有能力去挑戰任何型別的靶點，這是當下生物醫藥產業的幸運。」

在獲得此次諾貝爾獎之前，Demis Hassabis博士與John Jumper博士還在今年獲得了多個科學大獎，包括蓋爾德納獎（Gairdner）和拉斯克獎。2020年，Baker博士也獲得了素有「科學界的奧斯卡」之稱的科學突破獎——生命科學科學突破獎。此次共同摘得諾貝爾獎的桂冠是對他們透過放飛想象力和才華，解決了讓科學家困惑了半個世紀的蛋白質結構預測難題的再次肯定。讓我們再次祝賀這三位傑出的科學家，並向他們突出的貢獻致以崇高敬意！

（轉自：藥明康德）