來源:網易新聞
東方IC
"提出一個問題往往比解決一個問題更重要。"愛因史坦百年前的話語,在如今這個"答案太多,而問題太少"的AI時代正獲得更多共鳴:越來越多科學家認為,"更好提問"是人類面對AI的最好辦法。
不過,具備超強推理能力的OpenAI o1大模型的問世,讓科學家開始期待AI能夠提出一個好問題。日前舉行的第23屆浦江學科交叉論壇上,專家們表示,隨著科學研究"第五正規化"AI for Science(AI4S)的到來,"AI愛因史坦"有望提出有價值的科學問題,並擁有理解復雜世界、探索未知規律的能力。
靶點枯竭了嗎
靶點是藥物研發的源泉,一個新靶點的出現,往往會帶來一系列重磅炸彈式的藥物。
目前,全世界新藥研發面臨的共同難題是靶點枯竭。華東師範大學藥學院院長、人工智慧新藥創智中心主任李洪林表示,人體有不到三萬個基因,數百年的研究產出了數百萬篇研究論文,共獲得了近900個靶點、1600多個常用治療藥物。
科學家曾預言2003年人類基因組計劃完成後,所有疾病相關靶點都將一網打盡,但事實並非如此。由於靶點有限,熱門賽道不可避免出現了"卷靶點"。比如腫瘤靶向治療領域,"擠"滿了250個臨床候選藥物,腫瘤免疫治療賽道則有130多個藥物在研。
AI視角下,人類基因還有海量的"未解之謎"。李洪林表示,現階段只有3%的基因被確認為"成藥性靶點",55%的基因僅有生物學機制研究,35%的基因仍為"黑暗基因",即人類尚未發現它們具有明顯功能。
未知即"藍海"。正如羥甲基戊二酰輔酶A還原酶靶點開啟了他汀類降膽固醇藥物時代,1996年上市的立普妥至今仍保持著百億美元的年銷售額,科學家期待"第五正規化"下的新藥研發能夠開創一個個新的"藍海時代"。
推理克服"幻覺"
GPT的出現曾掀起過一陣AI4S的討論,但是大語言模型有天生短板,比如"幻覺"問題。"這是因為大語言模型本質上是機率預測,並不產生新知識,投餵的數據越多反而會強化它們對某一類問題的刻板印象。"復旦大學人工智慧創新與產業研究院副院長、上海科學智慧研究院院長助理程遠說。
傳統科學研究中,人們總是依靠"問題—實驗—數據"來獲得新發現,這個過程極其依靠專家的經驗,有時甚至是"靈光一現"。未來"第五正規化"下的科學研究,可形成"AI科研助手+AI操作機器人+智慧實驗環境+可信多方協作"的高效叠代。
如何打造一個垂類科學大模型?程遠表示,垂類科學大模型有兩個特點:一是數據量少,特定領域只有幾千、幾萬條數據;二是遷移性差,在訓練集、測試集上表現好的數據,在實際計畫中往往表現很差。因此,垂類科學大模型需要由高品質的科學數據、科學實施方法和科學機理一同打造,缺一不可。
基於這樣的理念,上海科學智慧研究院打造了"燧人"物質世界大模型——將實驗數據、合成數據以及量子力學、分子動力學、統計熱力學等物理機理都投入模型進行預訓練。"當數據和機理矛盾時,擁有推理能力的科學大模型有能力調整對數據的認知,然後它能從牛頓力學走到愛因史坦相對論。"程遠說。
科學家與AI共創
不可否認,科研已成為AI的下一個"主戰場"。一份對全球44家頂尖藥企AI輔助藥研行動的調查顯示,近十年來,藥企使用AI技術服務行動次數顯著增長,41家藥企與AI初創公司有合作關系,7家藥企與高校展開了合作,諾華、阿斯利康、楊森、輝瑞、葛蘭素史克、默克、拜耳等跨國藥企在AI藥研上行動最積極。
程遠所在的上海科學智慧研究院,目前已經擁有"伏羲""女媧"等垂類科學大模型。其中,"伏羲"是全球氣象大模型,也是第一個全球次季節預測大模型,可提供全球未來15天逐小時預測以及未來60天逐日預測。
"女媧"醫藥大模型包括DNA大模型和動態蛋白質大模型。其中,DNA大模型以全球最長序列、最細粒度的基因調控關系理解促進生物機制的發現,將套用於藥物靶點發現。"女媧"在多個預測指標上的正確率超過了DeepMind的高精度基因表現預測模型Enformer。
根據【2023AI4S全球發展觀察與展望】報告,未來幾年科研相關領域都將會完成2.0階段的演算法升級,而後將逐漸進入到智慧化設計的3.0階段,最終實作AI4S廣泛普及。"AI觸發了科研範式轉型的突破點。"程遠表示,科學家應該了解AI語言,把科學問題轉化為可計算的問題。未來,科學家將與"AI愛因史坦"一起,共同推動創新成果的產生。
作者:沈湫莎
文:沈湫莎 圖:東方IC 編輯:範菁