當前位置: 華文世界 > 科技

AI在藥物研發變得如此有用,因為擁有了更多測量技術和數據

2024-09-02科技

AI在藥物研發變得如此有用,因為擁有了更多測量技術和數據;首先註重數據生成,再考慮復雜演算法

導讀:

  • Kim Branson指出,如今,AI在藥物研發行業變得如此有用,是因為我們擁有了更多的測量技術,比如基因組測序、RNA測序和單細胞分析等。這些數據的維度非常高,如果沒有機器學習,即便是專家也很難從大量的表達變化中提取有用的資訊。

  • 初創公司首先要關註的是數據,尤其是獨特的數據。一個關鍵的教訓是首先註重數據的生成,再考慮復雜演算法的問題。獨特、幹凈、能夠生成更多數據的數據具有差異化優勢。

  • ML正在與真正的生物機制建模相碰撞,關鍵在於「有結果」的數據。為此,應當建立樣本庫,讓數據收集變得成本更低、品質更好。

  • GSK的AI革新吸引Branson從初創領域走向大型企業生態

    VJ: 今天我們請到了GSK的高級副總裁兼全球人工智慧和機器學習負責人Kim Branson。Kim,非常感謝你能來到這裏。歡迎來到Raising Health節目。

    KB: 謝謝你,VJ,很高興能來到這裏。

    VJ: 那麽,我想我們可以從一個大家都感興趣的話題開始,讓大家了解一下你,以及你最初是怎麽對這個領域產生興趣的。我猜想你小時候可能喜歡電腦,你一定也喜歡醫學和生物學。那麽,這一切是怎麽開始的呢?

    KB: 其實我在上大學之前從來沒有接觸過生物學,甚至從未考慮過這個領域。直到進入大學後,我才發現了分子生物學和細菌致病機制——免疫系統和細菌之間存在交互作用。我小時候喜歡玩電腦,對電腦很感興趣,但我更多是個數學和物理方面的孩子。當我發現這個全新的世界時,我就被深深吸引住了——我發現生物學不僅僅是一些模糊的概念,它是有結構的,比如晶體結構等等。當你把這些東西組合在一起時,就會被吸引並想要了解事物是如何真正運作的。所以,我一直被結構生物學的魅力所吸引。在長時間的培養和實驗過程中,我意識到,我可以去做計算和小分子藥物設計。

    VJ: 也就是說,可以去做計算工作。

    KB: 是的,我做計算工作和小分子藥物設計。在我讀博士期間和獲得博士學位時,很多人問計算輔助藥物設計是否有效。答案是肯定的,而且它確實開始發揮越來越大的作用。

    VJ: 但你說的這些大概是20年前的事情了。

    KB: 是的,所以我們談論的是很久以前的事了,這確實讓我感覺自己有點老了。大概是在1999年左右,我當時和Joseph Gees、Peter Coleman以及Brian Smith一起工作,他們是第一個神經界面驅動器背後的關鍵人物,而這個驅動器實際上是透過計算設計的。他們使用一個叫Goodford Scrid的程式來繪制蛋白質表面,並找出在何處放置功能基團。這個設計的基礎是一種原始的糖分子,但實際上是透過計算方法完成設計。他們相信計算設計的有效性,因為他們必須構建一些東西。最終,這些成果被市場接受,成為Relenza (ZP註:Relenza是一種用於預防和治療流感病毒感染的藥物,其活性成分是紮那米韋(zanamivir))。 諷刺的是,這個藥物正是由我現在所在的GSK公司推出的。

    VJ: 真是一個完整的迴圈。之後,你去了一些初創公司,也進入了制藥行業。我很好奇你對這兩者的看法,以及你如何看待這個生態系。

    KB: 是的,我在Vertex工作了一段時間。諷刺的是,在生物學領域裏,你能建立的最好模型的準確率大約在0.6到0.7,如果達到0.9,這已經是個很好的數值了,但仍可能有問題。這些是在PowerSet和Becca等概念出現之前的事情。後來,我的一些朋友在開發一個搜尋引擎,所以我決定加入他們,因為我想處理大型數據集。在處理非常大的數據集時,我學到了很多關於機器學習的知識,這非常令人興奮。

    在初創公司裏,競爭者不多,你可以自由發揮,但也會受限於規模、資金等各種因素。而在大公司裏,雖然資金更多,但生態系也更大,有很多人在做各種各樣的事情,關鍵是如何引導這些資源。因此,兩者各有優劣。

    對我來說,我可以把從一個領域學到的東西帶到另一個領域,然後再回到原來的領域。我一共任職了了三個初創公司,我真的很喜歡那種節奏感和緊迫感。如果你能把這種感覺帶到大公司裏,即便在大公司裏很容易隨波逐流,但如果你今天能完成任務,即使別人拖延了幾天,最終也不會導致一個月的延誤。初創公司有一種「立即行動」的能量,並且你能招募到那一類人。

    VJ: 那麽是什麽吸引你來到GSK的呢?是什麽讓你決定加入這家公司?

    KB: GSK非常有趣。當時我在Genentech工作,我有很多朋友在GSK,他們想做AI相關的事情,就問我應該如何組織,以及應該把人放在哪裏。他們堅決主張一個特定的地點,但我當時認為他們在那裏找不到合適的人選,並建議他們以另一種方式組織。起初,我對加入GSK是有抵觸情緒的,因為外界對GSK的看法,以及在過去20年裏,我在會議上總是看到一些人在抱怨同樣的事情,這讓我覺得不想在那裏工作。

    VJ: 但這也是大公司的常見問題,對嗎?

    KB: 是的,最終他們邀請我去面試。我去面試時見到了Howe和其他人,我意識到實際上情況非常不同。GSK當時正處於一個徹底自我重塑的階段。大公司很少會徹底自我重塑,但他們真的在做,而且非常認真。因此,我認識到GSK在努力進行真正的變革。

    我透過Daphne等人認識了Howe,知道他不僅懂得如何寫Python,還對電腦科學有深入的了解。他擁有ACS認證,背景也是工程師,確實能寫程式碼。我意識到這個人實際上與機器學習領域的專家合作過,他知道實作這些目標所需的條件。而且,他們所投入的正是我當時認為非常重要的領域,比如大型基因資料庫的上線和功能基因組學。Howe在CRISPR和基因擾動方面的思考遠遠領先,他說我們可以看到數據爆炸的趨勢,因此需要機器學習來理清這些數據。

    因此,他們不僅僅是試探性地做一些合約計畫,而是計劃建立一個完整的部門,並將其作為戰略的核心。我認為這確實是一個機會。當時我也考慮過做另一家公司或其他事情,所以最壞的情況就是再找另一份工作,這不算很難。更有趣的是,當時有人在打賭我在那兒能待多久,有人說兩周,有人說幾個月,甚至兩年。結果我打破了這些預期,到這個星期一我在GSK已經五年了。

    VJ: 看來你成功「打臉」了那些賭你會離開的人。

    KB: 是的,如果我早知道的話,可能會更有信心留在GSK。我覺得自己在較小的公司裏學到了如何構建和吸引人才,但在大公司中面臨的下一個挑戰是如何在這樣一個大組織內建立新的事物,以及如何同時帶動所有人一起前進。這是一個全新的挑戰。

    VJ: 那麽你是怎麽做到的?這是個很好的話題。

    KB: 是的,我認為Armdale法則不僅僅適用於CPU,對於公司來說也是如此。 計算與溝通的比例確實非常重要。 我意識到,你需要花費很多時間向大型組織解釋那些對你來說直觀顯而易見的東西,因為你面對的是一群非常忙碌的人,他們有自己的工作要做。

    VJ: 而且,他們的背景也各不相同。

    KB: 藥物研發涉及到來自不同學科的人才,再加上生產環節,我認為這是一個非常復雜的工作。他們的背景和所接受的訓練非常不同,而且年齡也不同。技術變化非常快,因此不同的人會經歷不同的發展階段。有些人可能會質疑新技術是否有效,或者將其與已有的技術進行比較。這就像經典的創新者困境一樣:雖然現在的技術可能還不夠成熟,但我必須解釋清楚技術變化的速度。你還會遇到真正的信徒,他們對這些新事物充滿熱情。因此,關鍵在於說服人們,進行大量的溝通。

    然而,我發現到了一定程度,你可以說很多話,但有時候更需要安靜下來專註於實際建設。於是,我們基本上決定不再討論這些問題,而是專註於實際工作。我們在組織內部建立了一個小型的保護性環境,建立了大量的產能。

    現在我們處於技術的安裝階段,也就是將這些技術整合到實際流程中的階段。我們已經完成了小規模的試點計畫,現在需要將它們實際融入到工作流程中。在這一過程中,你需要不斷地溝通、溝通、再溝通。因為組織往往分布在不同的地理區域和時區,所以資訊傳遞的時間可能會讓人感到意外。但最終,大家都會支持這一變革。當你成功推動了這一變革,它就會變得不可阻擋。畢竟,這涉及到大量的資本和數據。

    VJ: 這就是我的看法。我覺得在大型制藥公司中,你會涉及到這些問題。

    KB: 無論哪個領域,你都能找到專家。即使他們自己不知道答案,他們也能找到知道答案的專家。

    從設計到臨床:AI如何套用於藥物研發?

    VJ: 我認為現在的問題是,我們看到AI已經在我們周圍出現,但它將如何影響藥物設計?我覺得你們正在做的事情非常有趣,因為你們正在實際套用這些技術。你能否提供一些具體的例子?

    KB: 是的,很多人可能認為,AI一旦成功,就能實作「輸入疾病數據——自動給出靶點——生成相應的分子」的流程,我們甚至不需要進行測試,或者只需在虛擬人類中進行測試。 我每次聽到這種說法時,總是忍不住翻白眼。

    VJ: 也許這種情況會發生,但可能還要等50年。

    KB: 我們聚焦在企業上,但首先要確定的是藥物的靶向。 你可以設計出世界上最好的藥物,具有最佳的藥代動力學和安全性,但如果靶向錯誤,它就不會產生臨床效果。所以首要任務是選擇正確的靶向。

    我們擁有大量的基因資料庫,包括人的基因序列和醫療記錄等資訊,我們會比較有疾病和沒有疾病的人,看看他們之間有什麽不同。 雖然他們之間有很多差異,但哪些差異真正重要,哪些是驅動疾病的因素?

    首先,我們可能會比較已診斷和未診斷的患者,這是其中一種方法。或者我們可以再次使用機器學習——例如,我們將機器學習套用於臨床影像。一些人可能會有不同程度的肝臟腫大或瘢痕,或肝臟和腎臟功能不全。與其由人工逐一評分,我們可以讓AI模型來完成。這為我們提供了連續性特征。然後,我們可以利用這些資訊進行GWAS。

    VJ: 這就是你們用來找出基因與表型之間關聯的方式,對吧?

    KB: 是的,沒錯。一旦我們找到了這些關聯,我們還需要弄清楚這些遺傳變異在生物學上是如何發揮作用的。首先,我們需要弄清楚這些遺傳變異作用於哪些細胞型別。它可能會影響多個基因,因此我們要預測變異的具體作用位置。接下來,我們要了解它的作用機制,比如它是增加了信使RNA的數量,減少了,還是改變了剪接方式,從而產生了不同形式的蛋白質。

    我們有一些機器學習方法可以預測這些方向性,這些方法目前在生產中已被使用,幫助我們解讀變異資訊。 這使我們能夠了解,某些變異可能導致更多的蛋白質合成,而這些蛋白質在某些人群中與疾病相關,從而為我們提供了調節疾病的線索。

    我們有多種方法用於分析細胞影像。 例如,我們使用遞迴等技術來預測小分子的作用效果,或研究細胞表型。我們還采用主動學習系統來發現新藥物,並在生物疾病模型中進行實驗。因此,相比於制作小分子工具分子,我們現在直接調節基因的表達水平。我們不僅可以單獨調整基因,還可以進行成對調整,甚至多基因調節。

    我們使用的是一種叫做TALEN的技術 (ZP註:TALEN是一種利用轉錄啟用因子樣效應物核酸酶進行基因組編輯的技術。) ,而不是CRISPR (ZP註:CRISPR是一種源自細菌的免疫機制,已被開發成一種強大的基因編輯工具。) ,能夠連續調節這些基因的表達,從少量調節到大量的蛋白質或輕微降低蛋白質,並觀察結果。這種方法允許我們進行這種調節。我們有一個完整的主動學習系統,它會整合來自遺傳學的數據、文獻中的資訊以及經驗性的知識。這種系統能夠處理和分析各種數據,生成假設,並用來指導進一步的研究。

    如果我們不能進行全基因組篩選,也無法逐一嘗試所有可能的方法,我們會使用一種模型來設定靶向。 這個模型會考慮各種要求,比如RNA表達譜達到某種模式、期望的蛋白質組學數據或功能測定結果,以及靶向的非毒性和可操作性。然後,模型會進行一輪實驗,並提供反饋資訊。根據這些反饋資訊,我們可以決定下一步的策略。例如,基於我的實踐、連線性和理解,我可能會選擇對某個基因進行突變,因為它是這兩個蛋白質的共同祖先。這有助於我們了解訊號傳導的機制。我們已經證明,這種方法比隨機篩選快了大約20%。

    在進入臨床階段時,我們會使用機器學習技術,並已經在計算病理學方面工作了一段時間。 我們甚至設立了GSK計算病理學教授職位,當時有Rad在我們團隊中緊密合作。我們主要利用計算病理學來處理一些關鍵問題,比如在腫瘤學中,確定靶向在組織中的表達情況。傳統上,人類病理學家會檢視樣本,給出一個大致的估計,比如認為63%的切片表現為某種情況,並將樣本分給幾個人進行高、中、低的評分。然而, 使用機器學習技術,我們不僅可以準確地量化表達水平,因為計算棕色像素相對簡單,還可以確定具體的細胞型別。 這樣,病理學家可以從這些繁瑣的工作中解放出來,去做其他更復雜的任務。當你獲得試驗的反應數據後,我們可以分析哪些細胞型別的表達與響應性相關,並基於這些數據叠代模型。

    我們進行了一些高度儀器化的第二階段臨床試驗,測量了比以往更多的蛋白質組學指標等數據。 雖然這非常昂貴,而且很多人質疑這些數據是否有用,我們也承認大部份數據可能不會直接帶來有用的資訊,但其中一些數據確實會有價值。透過分析這些數據,我們能夠找到一個特定的患者子集,我們知道如果降低病毒表面抗原水平,他們幾乎可以達到功能性治愈。知道了這一點後,我們就可以尋找一種藥物來將這些患者帶到這種狀態,然後用這種藥物進行治療來達到預期的效果。

    圖片來源:Unsplash

    從實驗到測量:ML推動藥物研發領域產生新發現

    VJ: 好的,那麽對於觀眾來說,你能說說現在在GSK使用的機器學習(ML)與10年前的方法之間的差距嗎?比如在時間、成本或其他方面的差距。

    KB: 對於這些方面的其中一些事情,過去必須做更多的實驗。例如,在遺傳學方 面,如果你不知道變異的具體作用,你就必須去構建一個模型系統,調節其表達水平,或過表達或不表達來制作大量的替代讀數。許多關於發現的連續性特征的研究,過去要麽依賴大量的放射科醫生手動評分,要麽需要很長時間,因為這是非常容易平行化的成本。 我們可以計算,但是復雜性在於你不能僅透過一個非常小的高維空間來尋找某種關聯。

    VJ: 是的,但你就是無法獲得足夠的實驗數據。

    KB: 確實,要可靠地完成這些操作,尤其是一些非常復雜的技術,確實不容易。例如,B型肝炎的案例中,使用的是基於自編碼器的技術,但你也在做很多特征壓縮的工作。 現在AI變得如此有用,是因為我們擁有了更多的測量技術,比如基因組測序、RNA測序和單細胞分析等。 雖然我們現在有了更多的數據和測量,但如果沒有機器學習,我們無法充分利用這些數據。 我的核心假設一直是,醫學的發展隨著新的測量技術的出現而推進。 隨著測量技術變得更便宜,我們可以學習到更多的東西。比如心臟病學領域,Swan-Ganz導管用於測量心臟中的參數,通常不是很多人願意做這種操作。而第一個進行這種操作的人,他竟然選擇把導管插入自己身上,結果自己暈倒了。這真是太瘋狂了。

    VJ: 順便提一下,老式的方法也是這樣。

    KB: 是的,像那個發現幽門螺旋桿菌的澳洲人一樣,他也是非常瘋狂的。他們當時有一個關於細菌的假設,但並不確定具體情況。他們決定嘗試用一些方法,盡管風險很大,希望能夠清除這些細菌。結果,他們確實在這個領域取得了重大突破,雖然過程非常冒險。

    VJ: 我相信他們確實取得了突破。

    KB: 是的,這些實驗是值得的,他們確實在家裏進行了嘗試。從這些實驗中,我們發展出了血壓監測儀等裝置,現在還有連續脈搏測量等技術。隨著這些技術變得更加便宜,我們在心臟病學領域學到了更多,進而推動了新的發現。

    我們現在有了更多的測量技術,但這些數據的維度非常高,以至於即使是像你這樣的專家也很難從大量的表達變化中提取有用的資訊, 尤其是在對比疾病患者與健康個體時。如果沒有機器學習,我們根本不知道如何處理這些數據。我們可能只能做一些線性分析,挑選出最明顯的部份,但這可能是不準確的。因此,在數據處理方面,確實很難進行比較,尤其是在這種數據復雜性發生變化的情況下。

    對初創公司來說,數據比復雜演算法更重要

    KB: 如果是在藥物研發領域,或者說廣義上的AI套用,首先需要關註的是數據,尤其是獨特的數據。 一個常見的問題是,很多人嘗試構建某種東西,但他們手頭並沒有完全符合需求的數據。他們可能會說:「我們沒有完全符合要求的數據,但我們有這種類似的數據。如果你能解決這個問題,那也許就會有用。」 但人們往往忽視了現有的數據只是現實世界的一個代表。 關鍵是要認識到,現有的數據可能並不完全正確,你需要去生成數據。 實際上,能夠生成數據是至關重要的,因為在某個階段,你會遇到數據不足的問題,這時你需要生成數據來建立模型。這也會成為一個有利競爭,因為你不僅擁有能夠生成的數據,還有公開的數據。這使你能夠更有效地利用這些數據,從而更快地推進工作。

    VJ: 理想情況下,應該是有人支付費用讓你生成數據。

    KB: 是的,理想情況下,他們會提供數據,並支付費用讓你將模型賣回給他們。需要明確的是,GSK不會進行這種交易。但數據方面確實是關鍵,生成更多的數據是很重要的。因為坦白說,更多的數據加上一個簡單的演算法,通常更容易取得成功。就像Netflix挑戰賽那樣,獲勝的關鍵在於引入不同的、正交的數據,而不僅僅是更聰明的演算法。 因此,一個關鍵的教訓是首先註重數據的生成,然後再考慮機器學習和復雜演算法等問題。 我看待很多來找我們的公司時,會考慮以下幾個方面:你們擁有何種獨特的數據?你們生成數據的能力如何?你們在某個領域的規模是否比我更大?如果你們的提案只是說:「哦,我們有聰明的人,給我們數據,我們會做很酷的事情。」 那我就會覺得:「我也有聰明的人。」 我們需要看到一些真正有價值的獨特優勢。

    VJ: 在你看來,什麽樣的數據才會有差異化呢?

    KB: 我認為, 數據要麽是獨特的,能夠適應特定需求,因此非常幹凈,批次效應較少;要麽你能夠生成更多的數據,並且可以控制數據的供應方面。 這些因素能夠幫助你理解你的方法在不同情境下的表現,這將反映出人們可能遇到的問題,因為系統中可能存在一些偏差。我只是從抽象的角度考慮這些關鍵點。一旦你掌握了這些,機器學習的具體方法其實並不重要。最終你銷售的是解決方案而不是技術細節,客戶並不關心它是否是像Mechanical Turk那樣的模型,或者其他什麽東西。 只要你訓練出一個很好的隨機森林模型,效果顯著,不管是否是神經網路或其他演算法,都是可以接受的。

    VJ: 有些人會使用隨機森林,這樣做是有效的,對吧?

    KB: 確實如此,隨機森林應該是基準,每個人都應該從它開始。然後,你應該總是將你的資訊增益與隨機森林進行比較,雖然這樣可能會讓你長時間感到沮喪。

    VJ: 是的,或者任何其他更簡單的方法,比如基礎的神經網路,實際上基本上就是邏輯回歸。實際上,這些方法都很相似。有趣的是,我認為這會回到原點,我們現在非常喜歡復雜的東西,但最終可能會看到更多簡單方法的回歸。

    KB: 是的,我認為人們會意識到這一點。比如,David Han寫的那篇論文,我們可能很早就分享過,討論了分類器復雜性和進展的錯覺。那是很早期的機器學習論文,分析了UC Irvine的一些數據集。在他們看來,復雜的方法比如SVM,其實就像是Fisher的線性判別分析一樣,只是一些額外的工具,處理的是非常簡單的數據集。論文顯示,基本的簡單方法已經能夠做到大部份工作,而為了那額外的5%提升,你才需要額外的復雜性。我認為這在現在仍然是成立的。

    VJ: 假設初創公司擁有差異化數據,演算法中的哪些特征更讓你興奮?

    KB: 我希望看到經過良好表征的穩健性和可靠性標準。 不要只給我一個點估計,而是要提供一個點估計以及一些置信度和額外的測量標準。 必須具備這些。

    VJ: 即使如此,這實際上有時也很困難。

    KB: 是的,我知道。我仍然認為有很多機器學習論文只是展示了他們的方法更好,給出了表格和數據,聲稱他們的方法比其他的自然要好。而且,有時這些方法在某些方面確實有所不同。但對於很多人來說,0.1的AUC差異可能並不值得,他們可能不在乎這種差異是否值得他們花錢購買新的技術。

    VJ: 哦,是的,如果是0.1的AUC差異,這不會得到重視。

    KB: 是的,你需要的是精度曲線。這真的很奇怪,雖然AUC很重要,但你需要確定要達到什麽水平才能使其有意義的不同,然後看看它的工程品質如何。接著,看看我是否能將其整合到我的系統中。它們是如何工作的?安裝方面的情況如何?因為通常有些人負責公司中的使用,而另一些人則負責操作和執行。你如何控制模型漂移等問題? 你是在向使用者銷售,但購買和安裝的人也是決策過程的一部份,比如工程方面的內容。你必須非常仔細地考慮如何使它對他們來說易於使用。 我經常看到很多人把它放在雲端,讓我在我的雲上執行,或者讓我在本地執行。你需要考慮不同的方式將其推向市場。根據行業的不同,更多的方式可以使整合、監控、安全等變得更容易,這樣對他們來說就更無摩擦。

    圖片來源:Unsplash

    AI與真正的生物機制建模相碰撞:更關鍵的是「有結果的數據」

    VJ: 我知道你還喜歡編程,也喜歡玩AI。那麽,最近你親自動手做了什麽?你最近在做什麽計畫?

    KB: 我最近做的一個計畫是處理我收到的各種型別的電子信件報告。我通常只有一個問題需要了解,但卻無法逐一檢視所有內容。於是我決定下載這些電子信件,把它們按照標題整理到我筆記本上的一個資料夾裏。然後,我執行一個小型的機器學習程式,這個程式會根據我設定的問題生成電子信件並行送給我。這是我最近做的一個計畫。另外,我對長上下文視窗的人工智慧模型非常感興趣,我在考慮是需要一個長上下文視窗來進行任務規劃,還是需要一堆針對不同任務調優的專家級語言模型或代理。

    VJ: 是的,這樣做是為了處理和篩選資訊。

    KB: 是的,現在搜尋方式已經發生了根本變化。 以前是讓我找到文件,然後我自己閱讀;現在則是提供我的問題,讓系統閱讀文件並告訴我答案。 我最初版的用於推理科學文件的語言模型實際上是我自己編寫的。然後我制作了原型並將其整合到一起。即使如此,我認為你仍然需要親自構建一些東西。這不僅能保持你對各個方面的思考,還有助於你在公司處理基礎設施時,更好地理解這些系統。如果你定期測試它,或者發現做某件事很困難,那麽人類可能會減慢它們的速度。我經常考慮的一個問題是,如何加快GSK內部所有人的叠代周期。不僅僅是我在寫程式碼,還包括讓人們存取數據、獲取數據和思考問題。如果他們需要三周的時間來回答一個簡單的問題,那麽這種延遲會在整個鏈條中被放大。之後可能需要一個季度或兩個季度才能完成相關工作。

    VJ: 好的,假設五年後的今天,我們再做一次播客。希望我們能早點再做一次,但我們就以五年為例。你期待哪些在未來五年裏會讓你興奮的例子?顯然,這些事情現在還沒有發生,所以我想了解一下你認為你們會取得什麽進展?

    KB: 我認為我們將會有多種計算生物標記計算方法,所有藥物都會有相關的軟體支持。我認為這將成為所有公司的趨勢。我們會看到每種藥物周圍都有軟體來預測誰應該使用它,他們的基線狀況如何,以及在藥物使用後可能會有什麽變化,因為預測個體對藥物的反應在基線時非常困難。也許到那時我們會在這方面有所進步。

    我認為我們會對免疫治療 (ZP註:免疫治療(IO)是腫瘤治療領域中一種革命性的治療方法,它透過啟用或增強患者自身的免疫系統來辨識和攻擊腫瘤細胞。) 有更多了解。GSK實際上是一個免疫編程公司,疫苗就是編程免疫系統的方式。我們正在看到許多不同的疫苗。我認為我們將真正理解免疫治療的整個情況,目前只有大約 20% 的患者會有反應,而這 20% 的反應是非常驚人的。我們將會更多地了解免疫疾病。因此,我認為我們會看到更多關於軟體的套用。

    但我認為單細胞和幹擾基因組學的時代才剛剛開始。比如在GSK,我們的數據生成是指數級增長的。從我開始工作以來,我們正在生成大規模的perturbational datasets,主要是為了成為一種尋找表,這樣我就不必做實驗了。但更重要的是,現在它們成為了一個推斷表,可以透過推斷來代替實際的實驗。

    VJ: 我認為人類基因組計劃將成為一種尋找表。

    KB: 沒錯。所以人們在建立這些東西。我認為在五年後,我們將會做更少的實驗,但這些實驗會更具資訊性。此外,我認為這還會與觀察性佇列研究相結合。所以我會在不改變管理的情況下測量人們的情況,我們只是了解疾病本身。我們實際上是在進行試驗以了解疾病,以補充公共和私人數據。我認為大家都會這樣做。與此同時,我們也將真正理解疾病異質性到底意味著什麽。

    VJ: 它將如此神秘,又如此可解讀。

    KB: 是的,我認為我們會對發生的事情有更多了解。有趣的是,機器學習將開始與真正的生物機制建模相碰撞,因為我們對醫學和器官系統有很多了解。 我們不必僅僅依賴基因表現等數據來訓練演算法,而是可以向演算法提供關於生物體如何交互作用的結構性先驗知 識。 因此,我認為系統醫學的方法將在這裏變得非常有用。我相信,我們將會有更多的模型用於發現和系統醫學中。

    VJ: 在推進這一領域時,你認為最限制進展的因素是什麽?可能是人才、資金,還是其他因素?

    KB: 我嘗試回答這個問題—— 數據是關鍵,但真正的答案是有結果的數據。 比如說,我可以生成所有我想要的perturbational data,但我真正需要的是,比如說來自健康人和病人的樣本,而且我還想知道當我進行幹預時發生了什麽,臨床試驗實際上就是我們對某人進行幹預,看看會發生什麽。因果關系,嗯,我們需要的是結果數據。所以結果數據是標準的靶向數據。對我來說,最完整的方法是招募200名患者,並對他們進行非常詳細的監測。我們應該盡可能多地測量一切,然後將這些數據帶回來。患者的負擔是一個問題,我們不能讓他們承受過多的負擔,這之間總是存在緊張關系,所以我們應該以合適的方式進行。但是有結果的數據是限制進展的關鍵,因為你知道我們對他們做了什麽,測量了哪些步驟,了解他們的疾病進展和他們的情況。

    VJ: 所以我們應該如何最小化這一問題?

    KB: 這正是我們需要建立更大規模的私人聯盟或類似的公共機構的原因。

    VJ: 你知道,大家都想做的就是:哦,我能否獲得GSK的所有臨床數據?但我作為一個不同的公司會說,不,當然不行,我不能把我獨特的有利競爭交給你。我正在用這些數據來開發新東西。但實際上,我們需要的是大規模的觀察性佇列研究。目前這些東西確實存在,但它們的測量受限於它們當時的條件和假設。如果你去看其他東西,發現了新的東西,你會想,「哦,我如何測量這個?」 我們需要建立樣本庫,並且根據斯萊克定律(Skeptics' Law),這些樣本的分析變得更便宜、更好。

    KB: 是的,確實如此。 我們不能僅僅依靠基因測序和電子病歷,還需要加上樣本, 並且我們需要長期跟蹤這些人群。比如說,我們現在對免疫系統隨時間的變化還了解得很少,這實在是有些令人震驚。因此,我認為這就是限制我們進步的關鍵步驟。而且,我們還需要有關於這些人群的治療和結果數據。

    如果機器學習社群或藥物發現領域有更多這樣的數據,我們會處於一個更好的位置。我認為這將會到來,但老實說,這實際上是政府和產業需要合作資助的工作。也許在初期會有時間獨占存取等安排,但最終,如果這些數據成為公共資源,它們就會成為公共利益。

    但我認為, 如果你看看機器學習取得重大進展的地方,通常是在數據收整合本較低的領域。 例如,網路搜尋、影像網路等。這些領域的數據集很豐富,因此我們在這些方面表現得很好。作為一家公司,我們也將數據集用於機器學習挑戰賽,比如歐洲的挑戰賽。我們舉辦了基因解碼挑戰賽,專註於幹預研究,還有一些其他的挑戰,你可以在 GSKAI 上看到,我們還設定了獎金,真的能賺到錢。

    ☟☟☟

    ☞人工智慧產業鏈聯盟籌備組征集公告☜

    ☝#圖文新星計劃#