當前位置: 華文世界 > 科技

大模型推動新一輪科技革命和產業變革——專訪中國工程院院士王耀南

2024-09-05科技
通用大模型、行業大模型、端側大模型如雨後春筍般湧現,下一步大模型產業套用落地將進一步提速。
【瞭望東方周刊】記者萬宏蕾 特約撰稿史雅蘭、周旖晗 編輯顧佳贇
2024年7月5日,上海,世界人工智能大會(WAIC 2024)在世博展覽館舉行。人工智能賦能新型工業化,國產大模型套用展區
海量的套用場景、超大的市場規模,人工智能領域正迎來一場由AI大模型引領的爆發式發展。
AI大模型在千行百業落地過程中會帶來哪些新的可能性?具身智能如何成為人工智能的下一個浪潮?就AI大模型領域熱點問題,【瞭望東方周刊】近日專訪了中國工程院院士、中國影像圖形學學會理事長、湖南大學教授、機器人視覺感知與控制技術國家工程研究中心主任王耀南。
王耀南
AI處於「孩童期」
【瞭望東方周刊】:以AI大模型為代表的新一輪人工智能技術浪潮洶湧澎湃,AI大模型這一輪發展對培育發展新質生產力有怎樣的重要意義?
王耀南:技術革命性突破、生產要素創新配置、產業深度轉型升級,這三個因素催生了新質生產力。培育發展新質生產力,具體特征就是高科技投入、高效能、高質素,重點是要擺脫現在傳統產業存在的問題,即擺脫傳統經濟增長方式(增長效率低),擺脫傳統生產力發展路徑(高耗能、產品質素不高)。
多模態大模型正助力新質生產力的培育和發展。
推進數碼經濟高質素發展,核心在於「人工智能+行動」,即推動人工智能賦能各行各業,幫助各行各業擺脫增長效率低和高能耗等問題,最終實作生產力三要素的躍升:勞動者躍升為更高素質的勞動者,培養出戰略人才、套用型人才等;勞動資料躍升為更高技術含量的勞動資料,透過新一代資訊科技、先進制造技術、工業互聯網、工業軟件、AI大模型等,產出先進制造的優質產品;勞動物件躍升為更廣範圍的勞動物件,深度融合到生產的各個方面,開辟如戰略性新興產業、未來產業等新賽道。
作為新一輪產業變革的核心驅動力,人工智能將進一步釋放歷次科技革命和產業革命所積蓄的巨大能量。
【瞭望東方周刊】:如何理解當前人工智能發展的程度和水平?
王耀南:經過數十年演進,人工智能各方面都取得了突出成績。特別是在流動互聯網、大數據、超級計算、傳感網、腦科學等新理論、新技術以及經濟社會發展強烈需求的共同驅動下,人工智能加速發展,呈現出深度學習、跨模態、人機協同、自主操控等新特征,但坦白說,目前人工智能還處於發展的「孩童期」。
回顧人工智能的螺旋式發展史,可以看出其經歷了大起大落三次叠代:第一次是20世紀50年代的計算智能時代,特點是重視邏輯,忽略知識;第二次是20世紀70年代感知智能時代,特點是重視知識,學習不足;第三次自20世紀80年代到現在,特點是走向認知智能。
2017年,谷歌提出基於自註意力機制的神經網絡結構Transformer 架構,奠定了大模型預訓練演算法架構的基礎;2018年OpenAI和谷歌分別釋出GPT-1和BERT大模型,預訓練大模型成為自然語言處理的主流;2022年,OpenAI推出ChatGPT,其擁有強大的自然語言互動與生成能力;2023年,OpenAI多模態預訓練大模型GPT-4釋出,其具備多模態理解與多類別內容生成能力;2024年,OpenAI釋出影片生成大模型Sora,提出時空碎片概念。
當前,AI大模型熱潮主要由語言大模型相關技術引領。語言大模型透過在海量無標註數據上進行大規模的預訓練,讓模型學習大量知識,並進行微調,指定的回呼,從而獲得面向多工的通用求解能力。大模型從過去的單一的自然語言處理能力和文本解答能力,走向了影像影片語音的融合化、多模態的能力。Transformer架構是目前語言大模型采用的主流架構,大模型的多模態生成能力進一步成熟。
從發展行程看,AI大模型並不是終點,今天的語言大模型也只是人工智能的一個過渡神經網絡推理模型,未來我們還有很多工作要做。
具身智能大發展
【瞭望東方周刊】:當前熱議最多的多模態、人機協同、巡視開放和自主操控等特征,是人工智能發展的前沿體現。具身智能如何借助AI大模型的發展變得更加智能化?
王耀南:人工智能的三大基石,即模型演算法、算力、數據,其中模型演算法是核心,主要套用領域包括電腦視覺、自然語言處理、智能機器人等。
回顧過去人工智能發展取得的成績,主要體現在電腦視覺、自然語言處理、工業智能機器人等方面。
在電腦視覺中,過去人工智能更多作用在目標檢測、目標跟蹤、虛擬現實和三維重建,通常都采用小的模型演算法、小的模型來解決相關領域的問題。今天AI大模型大大提升了語音辨識、文字辨識、機器轉譯和資訊檢索等能力,因此在電腦視覺領域出現了不少視覺大模型的技術突破。
智能機器人是當下熱點。業界普遍認為,2024年可以稱為「AI大模型+人形機器人元年」。
具身智能是實作思考、感知、行動三個空間有機智能融合的機器或系統,既具有人機互動與自然語言理解的能力,又可以透過感知、認知、決策能力與時空環境及物件進行即時校準互動,協助機器人作出決策、完成行動任務。
「具身智能」這一概念,最早是1950年由英國科學家圖靈提出的,然而真正引起廣泛重視卻是因為近年來AI大模型的發展與套用。過去,人形機器人發展非常緩慢。我們沒有多模態模型,用小模型,一個模型解決一個問題,編好一些固定程式,透過小腦芯片控制機器人的抓取、行走、搬運等單一動作。現在,透過多模態大模型訓練學習叠代(大腦芯片),可以實作人形機器人與環境的互動、理解、判斷、規劃等,機器人的自主性得到很大提升,套用場景也在不斷拓展。
未來,人類更需要服務機器人,而服務機器人最重要的能力就是與人類互動,要實作語言、視覺、動作、影像、影片等全方位的互動,多模態大模型的發展將極大助力這些目標的實作。
【瞭望東方周刊】:機器人之外,AI大模型還有哪些典型套用場景?
王耀南:人工智能產業生態的三層基本架構為:基礎底座技術支撐、人工智能技術、人工智能套用。其中,基礎資源層主要是計算平台和數據中心,屬於計算智能;技術層主要透過機器學習建構,開發面向不同領域的模型演算法和技術,包含感知智能和認知智能;套用層主要是實作人工智能在不同場景下的套用。
第一步是模型架構,第二步是訓練,第三步才是測試套用。我們研究多模態大模型、跨模態大模型,最關鍵的是這些模型能不能落地到實際場景。
比如,套用到科學領域。AI大模型+5G技術,可以賦能基礎數學、通訊工程、電子科學、數據科學等多學科交叉領域,提供更多科研和就業創業機會。
具體到AI+生物科研領域,由Google DeepMind和Isomorphic Labs研究團隊推出的革命性AI模型ALFHAFOLD 3 ,以前所未有的精確度預測了所有生命分子(蛋白質、DNA、RNA、配體等)的結構和相互作用,有助於改變人類對生物世界和醫藥研發的理解,進而開啟人工智能細胞生物學的新時代。
再如,多模態大模型推動智能網聯汽車產業迅速發展,尤其是在環境感知、傳感器融合、規劃決策、地圖構建定位、V2X通訊、車輛控制等方面;在智能無人機方面,有助於更高效地完成測繪、救援等任務,形成真正的具身智能無人系統;在智能水下機器人方面,有助於為航行器提供位置、航向、深度、速度和姿態等資訊,滿足無人自主導航、長時間科考工作、高精度定位、即時準確導航等需求;在智慧能源領域,有助於建設更加開放、共享的能源資訊平台,提高能源生產和利用效率,實作能源的最佳化決策和廣域協調。
AI大模型+制造業是一個特別值得關註的重要套用場景。智能制造是融合資訊與通訊技術、人工智能技術、自動化技術、現代企業管理技術等多個大領域的全新制造模式。AI大模型透過對傳統生產制造全流程、全要素、各環節的賦能改造,將極大推動提質增效和降本降耗,助力制造業高質素發展。
科技競爭新高地
【瞭望東方周刊】:基於AI大模型的未來發展趨勢,您對中國人工智能產業有哪些建議?
王耀南:首先,我對具身智能的發展充滿信心。AI大模型的一個發展趨勢就是在具身智能機器人領域實作重大突破。
隨著技術不斷進步、套用場景不斷拓展,具身智能將在各個領域發揮越來越重要的作用。未來的具身智能人形機器人將更加智能、高效、安全、可靠,會逐漸成為人類生活中不可或缺的一部份。
開發人形機器人的過程,其實就是用開源大模型軟件、演算法來推動整個機器人產業發展的過程。從現在起,中國企業要為未來人形機器人大發展搭建一個大模型數智底座,這個底座包括機器人硬件和軟件,要從計算智能、感知智能、認知智能、決策智能、行為智能走向具身智能,真正實作AI大模型與通用機器人的深度融合。
人工智能發展趨勢是從計算智能(能存會算)到感知智能(能聽會說、能看會認),再到認知決策智能(能理解、會思考),我們要明確,未來要走的道路,依然是基於大數據、大模型驅動的新一代AI技術方向。
人工智能發展過程中所面臨的困難和挑戰還有很多。比如,怎樣在提高AI大模型訓練算力的前提下降低能耗?如何開發出計算效率高的計算架構芯片?怎樣解決現有AI大模型的可解釋性、安全性和可靠性?怎樣讓AI大模型在遇到各種復雜幹擾時,仍能保證穩定執行?如何保障數據安全,如何在資料探勘、數據分析、數據安全私密以及數據提取方面找到解決方案,等等。
眼下,通用大模型、行業大模型、端側大模型如雨後春筍般湧現,下一步大模型產業套用落地將進一步提速。總體來看,作為新一代人工智能產業的核心驅動力,AI大模型正在廣泛賦能中國經濟社會的多個領域,助力開啟邁向通用人工智能的大門,推動新一輪科技革命和產業變革。但同時,產業發展越成熟,問題也會暴露更多,要在套用中發現問題,解決不足,一起努力。
點選下方標題,閱讀本組專題全部稿件
【雲端巨模 萬象更新 】專題 系列稿件