科研，期待「AI愛因斯坦」提出好問題

2024-10-07科技

來源：網易新聞

東方IC

"提出一個問題往往比解決一個問題更重要。"愛因斯坦百年前的話語，在如今這個"答案太多，而問題太少"的AI時代正獲得更多共鳴：越來越多科學家認為，"更好提問"是人類面對AI的最好辦法。

不過，具備超強推理能力的OpenAI o1大模型的問世，讓科學家開始期待AI能夠提出一個好問題。日前舉行的第23屆浦江學科交叉論壇上，專家們表示，隨著科學研究"第五正規化"AI for Science（AI4S）的到來，"AI愛因斯坦"有望提出有價值的科學問題，並擁有理解復雜世界、探索未知規律的能力。

靶點枯竭了嗎

靶點是藥物研發的源泉，一個新靶點的出現，往往會帶來一系列重磅炸彈式的藥物。

目前，全世界新藥研發面臨的共同難題是靶點枯竭。華東師範大學藥學院院長、人工智能新藥創智中心主任李洪林表示，人體有不到三萬個基因，數百年的研究產出了數百萬篇研究論文，共獲得了近900個靶點、1600多個常用治療藥物。

科學家曾預言2003年人類基因組計劃完成後，所有疾病相關靶點都將一網打盡，但事實並非如此。由於靶點有限，熱門賽道不可避免出現了"卷靶點"。比如腫瘤靶向治療領域，"擠"滿了250個臨床候選藥物，腫瘤免疫治療賽道則有130多個藥物在研。

AI視角下，人類基因還有海量的"未解之謎"。李洪林表示，現階段只有3%的基因被確認為"成藥性靶點"，55%的基因僅有生物學機制研究，35%的基因仍為"黑暗基因"，即人類尚未發現它們具有明顯功能。

未知即"藍海"。正如羥甲基戊二酰輔酶A還原酶靶點開啟了他汀類降膽固醇藥物時代，1996年上市的立普妥至今仍保持著百億美元的年銷售額，科學家期待"第五正規化"下的新藥研發能夠開創一個個新的"藍海時代"。

推理克服"幻覺"

GPT的出現曾掀起過一陣AI4S的討論，但是大語言模型有天生短板，比如"幻覺"問題。"這是因為大語言模型本質上是概率預測，並不產生新知識，投餵的數據越多反而會強化它們對某一類問題的刻板印象。"復旦大學人工智能創新與產業研究院副院長、上海科學智能研究院院長助理程遠說。

傳統科學研究中，人們總是依靠"問題—實驗—數據"來獲得新發現，這個過程極其依靠專家的經驗，有時甚至是"靈光一現"。未來"第五正規化"下的科學研究，可形成"AI科研助手+AI操作機器人+智能實驗環境+可信多方協作"的高效叠代。

如何打造一個垂類科學大模型？程遠表示，垂類科學大模型有兩個特點：一是數據量少，特定領域只有幾千、幾萬條數據；二是遷移性差，在訓練集、測試集上表現好的數據，在實際專案中往往表現很差。因此，垂類科學大模型需要由高質素的科學數據、科學實施方法和科學機理一同打造，缺一不可。

基於這樣的理念，上海科學智能研究院打造了"燧人"物質世界大模型——將實驗數據、合成數據以及量子力學、分子動力學、統計熱力學等物理機理都投入模型進行預訓練。"當數據和機理矛盾時，擁有推理能力的科學大模型有能力調整對數據的認知，然後它能從牛頓力學走到愛因斯坦相對論。"程遠說。

科學家與AI共創

不可否認，科研已成為AI的下一個"主戰場"。一份對全球44家頂尖藥企AI輔助藥研行動的調查顯示，近十年來，藥企使用AI技術服務行動次數顯著增長，41家藥企與AI初創公司有合作關系，7家藥企與高校展開了合作，諾華、阿斯利康、楊森、輝瑞、葛蘭素史克、默克、拜耳等跨國藥企在AI藥研上行動最積極。

程遠所在的上海科學智能研究院，目前已經擁有"伏羲""女媧"等垂類科學大模型。其中，"伏羲"是全球氣象大模型，也是首個全球次季節預測大模型，可提供全球未來15天逐小時預測以及未來60天逐日預測。

"女媧"醫藥大模型包括DNA大模型和動態蛋白質大模型。其中，DNA大模型以全球最長序列、最細粒度的基因調控關系理解促進生物機制的發現，將套用於藥物靶點發現。"女媧"在多個預測指標上的正確率超過了DeepMind的高精度基因表現預測模型Enformer。

根據【2023AI4S全球發展觀察與展望】報告，未來幾年科研相關領域都將會完成2.0階段的演算法升級，而後將逐漸進入到智能化設計的3.0階段，最終實作AI4S廣泛普及。"AI觸發了科研範式轉型的突破點。"程遠表示，科學家應該了解AI語言，把科學問題轉化為可計算的問題。未來，科學家將與"AI愛因斯坦"一起，共同推動創新成果的產生。

作者：沈湫莎

文：沈湫莎圖：東方IC 編輯：範菁