大企業動向,也是行業重要指向。
在華為全聯接大會2024上,華為推出了一系列行業智能化創新產品和解決方案,其中推動AI技術與行業場景深度融合、促進人才培養、構建更完善的數智生態體系等,是眾多資訊背後的重要表述。
加大與高校合作,是這一生態體系中的核心環節之一。華為透過「智能基座」、鯤鵬昇騰產教融合基地、鯤鵬昇騰創新大賽、鯤鵬昇騰科教創新卓越中心,與高校開展了一系列合作,培養原生卓越人才,激發計算產業創新。
科研正進入「第五正規化時代」,AI技術驅動科研的效應愈加迅猛,推動新的科技革命「呼嘯而至」,其中科研的生產力已實作前進演化,生物學、醫學等學科領域,有了觸及更多秘密或隱秘的可能,而生物醫藥、硬件、工業制造等領域的產業模式也將改變。
以AI為內核,高校、企業在新科技革命中的角色關聯更加交雜,推動人才與算力的迴圈躍升,不僅正對高校科研的未來進行重塑,也將帶來全新的科技比拼與前進演化歷程。
AI重塑高校科研的未來
AlphaFold的問世與前進演化,為理解AI重塑高校科研的未來,提供了鮮明註腳。
2020年,DeepMind(谷歌旗下的人工智能企業)推出的人工智能模型AlphaFold在一場名為「蛋白質結構預測關鍵評估」的競賽中占據優勢地位,揭開了堪稱蛋白質3D結構預測的歷史新篇章。
今年5月初,前進演化叠代後的AlphaFold 3,以前所未有的精準度成功預測了所有生命分子(蛋白質、DNA、RNA、配體等)的結構和相互作用。
一個直觀通俗的對比是,在AlphaFold出現前,蛋白質結構只能透過X射線晶體學或冷凍電鏡等實驗技術來破譯,耗費數月或數年、數十萬美元,才可能解析一個蛋白質的精確三維結構。而AlphaFold2成功預測數億個蛋白質結構,只用了不到三年。
AlphaFold改變了生物學,在國內外高校科研中皆有表現。
根據公開報道,首爾國立大學計算生物學家Martin Steinegger領導的團隊,使用了一種名為Foldseek的工具,在AlphaFold數據庫中尋找導致新冠肺炎的病毒SARS-CoV-2的RNA復制酶的親屬。
這項研究發現了之前未被確認的、病毒可能的古代近親:包括黏液黴菌等真核生物中的蛋白質在其3D結構上類似於被稱為逆轉錄酶的酶。
公開資訊顯示,在國內,AlphaFold的問世,也為上海交通大學自然科學研究院&物理與天文學院&藥學院特聘教授洪亮開啟 AI 蛋白質設計研究提供了契機。
2021 年,洪亮及其團隊開發了一套基於預訓練的蛋白質設計的通用人工智能AccelProtein™ ——與 AlphaFold 預測結構不同,AccelProtein™ 開創性地實作了從序列直達功能的精準蛋白質設計。
該大模型的優勢表現之一是,利用小樣本乃至零樣本學習方法,提高大模型的工程泛化能力,幫助它在僅有少數濕實驗數據的情況下實作蛋白質效能最佳化,極大地提高了蛋白質設計的效率——以往需要 2~5 年才能完成的專案,在 AccelProtein™ 的支持下只需要 2~6 個月即可完成。
窺斑見豹。在深度學習與人工智能等結合前進演化下,AI對科研路徑、科研效率帶來實質助力,也帶來更多創新可能,進而也對科研人員的生產力帶來變革影響。
其背後邏輯包括但不限於,AI技術帶來數據處理與分析的自動化,實驗設計與執行、科研輔助工具、科研合作的智能化等,在人類已積累沈澱的龐大知識圖譜體系基礎上,篩選、整合、分析,一方面給科研人員帶來一定程度上的「解放」,讓其相對有限的智力、體力用於更核心的研究上,另一方面提供更多創新的研究思路。
以一個科研的完整鏈路來說,從提出問題,到搜集與處理繁復冗雜的數據、多方向科學計算模擬、理論論證及輔助證明,再到論文成稿,AI技術都可以深度參與其中,提供必要幫助。
參考公開資訊顯示,2023年12月 DeepMind 推出全新多模態 AI 模型 ——Gemini,其可根據提示,在一個午休的時間內閱讀 20 萬篇論文,並從中篩選出 250 篇特定有關論文、提取數據,進而繪制表格或圖片提供給使用者,極大提高科研人工作效率。
林新華 上海交通大學網絡資訊中心副主任(左)
王均松 華為昇騰計算系統實驗室主任(中)
占傑 華為計算產品線高級戰略規劃(右)
華為昇騰計算系統實驗室主任王均松認為,AI技術的出現,相當於科研人員多了一個同行,比如AI大模型,科研人員可以跟AI對話,包括具體科研的下一步應該怎麽走,AI可以用它自己思維的方法生成給到一些思考,能夠快速促進科研創新的過程,「我覺得這個可能是未來一個更重要的方式」。
對學科與科研廣度、人才密度都相對突出的高校來說,前述AI的價值空間、影響場景與路徑等,表現也更突出。
2024年6月,上海交通大學與華為合作的「上海交通大學——鯤鵬昇騰科教創新卓越中心」正式揭牌成立,雙方目標之一是其能夠成為華為和上海交大共同推動中國智能化發展的生態平台,讓鯤鵬昇騰的技術能夠更多的賦能上海交大的各類交叉學科創新,這些創新又能成為牽引各行各業智能化發展的核心動力。
公開資訊顯示,上海交大現已成功建成國內高校第一個也是目前規模最大的鯤鵬高效能系統,持續為相關學科提供科研算力服務。
可發現,在當前AI技術與科研結合中,高校的角色更深層次化:既是直接的受益者,科研工作流程、科研效率由此而變,具備了科研成果的誕生快捷化、豐富化及更快叠代的可期性,AI正重塑高校科研的未來圖景;也是新的AI技術策源地和創新高地,科研場景、人才的密度,以及多學科跨界融合的空間及必要性,為此提供了更多可能。
而這也是未來AI與高校科研互為迴圈要素的走向之一。
科研進入「第五正規化」時代
從AI for Science(簡稱「AI4S」)字面意思來看,即「人工智能驅動的科學研究」,在科研中,AI將繼續作為「驅動力」,這一趨向會更明顯,推動科學研究進入「新範式」時代。
美國科學哲學家杜文·庫恩在其名著【科學革命的結構】中曾首次提出術語「scientific paradigm」(科學範式),主要指的是各個學科在一定歷史時期形成的對某種專業知識的見解與共識。
關於科學研究的四個範式有一個較寬泛的概括,幾千年前是經驗範式,靠的是觀察和歸納的實驗研究;幾百年前是理論範式,基於科學假設和邏輯演繹的理論研究;幾十年前是計算範式,十幾年前是數據範式,特征是數據密集型科學研究。
而今,科學研究進入「第五正規化」,基本成為共識。
中國工程院院士李國傑曾撰文稱,現在還很難對第五科研範式做出嚴格定義,但已逐步顯露的特征有六點,包括但不限於人工智能全面融入科學、技術和工程研究,知識自動化,科研全過程智能化,以及人機融合、以復雜系統為主要研究物件,跨學科合作,更加依靠以大模型為特征的大平台,科學研究與工程實作密切結合等。
上海交通大學網絡資訊中心副主任林新華表示,AI4S的部份現狀趨勢體現在AI與計算流程結合更緊密。起初,AI作為一個單獨的程式,單獨訓練、單獨推理,與科學計算結果對比;現在,AI逐漸融合進一個學科的計算流程之中,作為計算方法的一部份;未來,隨著AI的可解釋性和可觀測性加強,人們又從中發現新的科學規律,探索出新的科研範式。「AI4S囊括了迄今為止所有的AI網絡、訓練方法,並且還有新方法在不斷被發現。」
AI技術的政策及輿論風向也走向積極,AI技術與科研的結合,進入一種相對更樂觀的科研語境中,高校迎來更多新的嘗試機會。
參考公開資訊,研究人員在【英國醫學雜誌】(The BMJ)上發表的相關報告顯示,截至2023年10月,全球百強科學期刊中有87家就人工智能生成內容的使用向作者釋出了指引。
2024年1月,全球知名學術出版機構Elsevier與學界合作開發,隆重推出全新的AI工具——Scopus AI,將世界上最大的科學文獻數據庫與可靠的AI相結合。
這一工具也於2024年三四月,在廈門大學、中國科學技術大學、南方科技大學等國內各大高校中陸續開放使用。
不過,AI4S對高校科研帶來的機遇空前,挑戰也甚巨。
比如AlphaFold3 預測的蛋白質等結構也並非完美,其中多蛋白如何形成復合體,如何與 DNA、RNA 或者小分子互動等,依然還待進一步探索。
中國科學院院士鄂維南曾在一次講座中表示,隨著AI for Science的發展,科研模式也從作坊式改變到了安卓式,其將依賴於四大基礎設施:基於基本原理的模型和演算法,高效率高精度的實驗表征方法,數據庫和知識庫,高效便捷的算力資源。
林新華也提到,AI雖幫助突破科研瓶頸,但對科研團隊的「硬+軟」實力提出了更高要求。硬實力包括算力、資金、人員規模,軟實力包括交叉學科合作、數據積累等。
校企合作成為突破口之一。
以華為為例。2022年,華為釋出科研創新使能計劃,該計劃透過技術扶持和賦能、資源支撐、行業影響力構建三大維度給予支持,旨在使能國內高校和科研院所依托華為全棧自主軟硬件平台開展科學技術研究和軟件研發與技術攻關工作。在技術扶持和賦能方面,將獲得技術專家的專項支持,且優先獲得與華為的技術聯創機會;受邀參加由華為主辦開發者活動,與行業技術大咖、專家學者、華為計算高層面對面共論人工智能生態; 在資源支撐方面,該計劃將從創新基金、學習資源、權益服務上提供服務,讓科技工作者們能夠把更多時間和精力投入在科研創新上。 在行業影響力構建方面,將優先受邀作為演講嘉賓參加由華為主辦的重要產業活動,為科研工作者提供更多溝通交流機會。
華為未來將繼續聚焦科研院所、國內高校等科技工作者的智慧,不斷釋放AI力量,加速科研創新,推動生態繁榮。
新科技革命蓄勢將至
AI4S的發展,關乎到科研整個鏈條的重塑,以及相關產業鏈的研發、實踐落地,實質可以理解為一場科技革命。
早在2017年7月,國務院印發【新一代人工智能發展規劃】,對人工智能發展、科技創新等,做了頂層擘畫。圍繞人工智能及其關聯的更宏闊的技術、產業發展與競爭,也早已開始。
有研究報告認為,當前中國人工智能人才、投資、技術、AI論文、算力等核心指標,第一次與美國一起位列第一梯隊,其中美國大模型(包含同一企業、同一模型的不同參數版本)數量為世界第一(占比44%),中國位列其後(占比36%)。
不過兩國間的差距依然存在,但有專家和企業家認為在呈現逐漸縮小的跡象。
馬斯克在2023年5月的一次訪談中提到,美國具有最先進的人工智能,中國緊隨其後。當然,中國有資源去規模化和最佳化人工智能。人工智能最大的單一進步仍然來自美國和歐洲。
他認為,中美之間的人工智能發展的確有差距,這個差距看起來在12個月的數量級上。而關於差距是在縮小還是擴大,他表示這很難判斷,「我懷疑它會在一定程度上縮小」。
高校、企業、科研機構成為其中比拼的關鍵要素,人才、科研自主或原生創新的能力,又是其中核心。
林新華透露,由上海交通大學「交我算」團隊與生物資訊學領域師生合作開發的ParaFold,作為致力於提高蛋白質結構預測效率的開源工具,對AlphaFold的CPU+GPU計算進行了高效能計算方面的深入最佳化。其更快、更省錢、更省GPU機時,被牛津大學、康奈爾大學等高校使用。
這部份證明國內智能化科研具備了一定的走出國門的自主創新能力。
而從CUDA(輝達旗下的平行計算平台和編程模型)遷移到CANN(華為針對AI場景推出的異構計算架構),從國外平台多國內自主適配平台的演變,這一方向已驗證可行,也意味著中國發展自主平台的必要性。
有觀點認為,CANN的成功不僅取決於其自身的技術實力,生態建設亦是關鍵。為推動CANN發展,華為等企業已與多個科研院校合作,共同改進技術,包括與高校、產業界等構建更先進的人才體系、數智生態。
前述華為與高校共建的鯤鵬昇騰科教創新卓越中心/孵化中心,是生態建設中的核心一環,其共同基於鯤鵬昇騰計算平台進行科研創新和卓越人才培養,孵化引領世界的研究創新成果。除上海交通大學外,華為還與清華大學、北京大學、浙江大學、中國科學技術大學達成合作。
在2023年9月,華為還宣布將攜手教育部和72所試點高校,共建數智人才新生態。
華為計算產品線高級戰略規劃占傑認為,高校有人才,企業有算力,兩者結合能夠走向一個更加完善的生態體系。
這一生態的價值之一,將是算力進階及其格局變化趨勢更顯性、更實體化。
華為也有了更新的動作。
在近期華為全聯接大會2024期間,華為全新釋出CANN 8.0,新增200多個深度最佳化的基礎算子、80多個融合算子、100多個通訊、矩陣運算等API,典型融合算子開發周期從2個月縮短至1.5人周,加速原生創新。
華為常務董事、ICT基礎設施業務管理委員會主任汪濤在大會上透露,未來三年,華為每年將投入10億元來加速鯤鵬昇騰原生套用生態發展,目標發展超過1500原生套用夥伴,基本實作全行業全場景的套用原生。
用占傑的話來說,目前AI能力遇到了一些階段性的局限,但正在被突破,未來如果AI能夠自己反思,或具備了多輪思考能力,那麽整個套用創新的風口才剛剛開始。
這也將是華為正完善的數智生態體系可預期的部份重要價值所在。