當前位置: 華文世界 > 科技

科研,期待「AI愛因斯坦」提出好問題

2024-10-07科技

來源:網易新聞

東方IC

"提出一個問題往往比解決一個問題更重要。"愛因斯坦百年前的話語,在如今這個"答案太多,而問題太少"的AI時代正獲得更多共鳴:越來越多科學家認為,"更好提問"是人類面對AI的最好辦法。

不過,具備超強推理能力的OpenAI o1大模型的問世,讓科學家開始期待AI能夠提出一個好問題。日前舉行的第23屆浦江學科交叉論壇上,專家們表示,隨著科學研究"第五正規化"AI for Science(AI4S)的到來,"AI愛因斯坦"有望提出有價值的科學問題,並擁有理解復雜世界、探索未知規律的能力。

靶點枯竭了嗎

靶點是藥物研發的源泉,一個新靶點的出現,往往會帶來一系列重磅炸彈式的藥物。

目前,全世界新藥研發面臨的共同難題是靶點枯竭。華東師範大學藥學院院長、人工智能新藥創智中心主任李洪林表示,人體有不到三萬個基因,數百年的研究產出了數百萬篇研究論文,共獲得了近900個靶點、1600多個常用治療藥物。

科學家曾預言2003年人類基因組計劃完成後,所有疾病相關靶點都將一網打盡,但事實並非如此。由於靶點有限,熱門賽道不可避免出現了"卷靶點"。比如腫瘤靶向治療領域,"擠"滿了250個臨床候選藥物,腫瘤免疫治療賽道則有130多個藥物在研。

AI視角下,人類基因還有海量的"未解之謎"。李洪林表示,現階段只有3%的基因被確認為"成藥性靶點",55%的基因僅有生物學機制研究,35%的基因仍為"黑暗基因",即人類尚未發現它們具有明顯功能。

未知即"藍海"。正如羥甲基戊二酰輔酶A還原酶靶點開啟了他汀類降膽固醇藥物時代,1996年上市的立普妥至今仍保持著百億美元的年銷售額,科學家期待"第五正規化"下的新藥研發能夠開創一個個新的"藍海時代"。

推理克服"幻覺"

GPT的出現曾掀起過一陣AI4S的討論,但是大語言模型有天生短板,比如"幻覺"問題。"這是因為大語言模型本質上是概率預測,並不產生新知識,投餵的數據越多反而會強化它們對某一類問題的刻板印象。"復旦大學人工智能創新與產業研究院副院長、上海科學智能研究院院長助理程遠說。

傳統科學研究中,人們總是依靠"問題—實驗—數據"來獲得新發現,這個過程極其依靠專家的經驗,有時甚至是"靈光一現"。未來"第五正規化"下的科學研究,可形成"AI科研助手+AI操作機器人+智能實驗環境+可信多方協作"的高效叠代。

如何打造一個垂類科學大模型?程遠表示,垂類科學大模型有兩個特點:一是數據量少,特定領域只有幾千、幾萬條數據;二是遷移性差,在訓練集、測試集上表現好的數據,在實際專案中往往表現很差。因此,垂類科學大模型需要由高質素的科學數據、科學實施方法和科學機理一同打造,缺一不可。

基於這樣的理念,上海科學智能研究院打造了"燧人"物質世界大模型——將實驗數據、合成數據以及量子力學、分子動力學、統計熱力學等物理機理都投入模型進行預訓練。"當數據和機理矛盾時,擁有推理能力的科學大模型有能力調整對數據的認知,然後它能從牛頓力學走到愛因斯坦相對論。"程遠說。

科學家與AI共創

不可否認,科研已成為AI的下一個"主戰場"。一份對全球44家頂尖藥企AI輔助藥研行動的調查顯示,近十年來,藥企使用AI技術服務行動次數顯著增長,41家藥企與AI初創公司有合作關系,7家藥企與高校展開了合作,諾華、阿斯利康、楊森、輝瑞、葛蘭素史克、默克、拜耳等跨國藥企在AI藥研上行動最積極。

程遠所在的上海科學智能研究院,目前已經擁有"伏羲""女媧"等垂類科學大模型。其中,"伏羲"是全球氣象大模型,也是首個全球次季節預測大模型,可提供全球未來15天逐小時預測以及未來60天逐日預測。

"女媧"醫藥大模型包括DNA大模型和動態蛋白質大模型。其中,DNA大模型以全球最長序列、最細粒度的基因調控關系理解促進生物機制的發現,將套用於藥物靶點發現。"女媧"在多個預測指標上的正確率超過了DeepMind的高精度基因表現預測模型Enformer。

根據【2023AI4S全球發展觀察與展望】報告,未來幾年科研相關領域都將會完成2.0階段的演算法升級,而後將逐漸進入到智能化設計的3.0階段,最終實作AI4S廣泛普及。"AI觸發了科研範式轉型的突破點。"程遠表示,科學家應該了解AI語言,把科學問題轉化為可計算的問題。未來,科學家將與"AI愛因斯坦"一起,共同推動創新成果的產生。

作者:沈湫莎

文:沈湫莎 圖:東方IC 編輯:範菁