人工智能行業專題研究：AI Agent，通往AGI的核心基礎

2024-07-16科技

（報告出品方/作者：華泰證券，謝春生、彭鋼、袁澤世）

AI Agent：透過 AGI 的核心基礎

Agent 有望降低人機互動門檻。我們認為，這一輪 AI 產業變革，核心本質不是在原有產品上增加或者減少什麽功能，而是改變人機互動方式。這種人機互動方式不僅體現在硬件載體上，更是覆蓋到軟件載體。其實作的路徑就是透過 Agent 來實作，Agent 作為智能輔助助理，其具備自我決策和執行能力，能夠完成連續服務多步驟的任務。我們認為，這是未來 Killer APP 應該具備的核心特征。Agent 對人機互動方式的改變，我們將其可以類比為 Dos 系統向 Windows 系統的轉變，帶來的人機互動方式的變化，降低了人機互動的門檻。

AI Agent：下一代大模型的核心能力。Agent 能力的實作，還是需要大模型具備相應的能力。我們的判斷：Agent 或是下一代大模型邊際變化最大的能力。我們可以看到，GPT-4o 模型已經開始具備 Agent 能力雛形，Google 的 Astra 也開始具備人機多模態互動多步驟任務完成的能力。

AI Agent：能力體現。如何從使用者角度感知 Agent 能力？我們將其總結為：連續、復雜、多步驟、多工的執行能力。1）連續：指的是大模型能夠對使用者的任務指令，進行任務拆解，分解為多個步驟，對步驟進行規劃排序、連續執行。2）復雜：目前大模型智能解決單個任務，或者簡單少數多個任務，無法完成多個復雜任務。3）多步驟：多步驟與連續密切相關，在大模型執行後續步驟的同時，能夠對任務目標和前序任務隨時保持記憶，步驟的規劃執行能力要強。

我們認為，AI 大模型的 Agent 能力是通往 AGI 的核心基礎。我們或將看到 Agent 能力有望逐步體現：1）單一簡單任務執行，2）單一復雜任務執行，3）多步驟簡單任務執行，4）多步驟復雜任務執行，5）連續多步驟復雜任務執行。這些能力的實作都依賴於大模型能力的提升。我們認為，Agent 能力有望在 GPT-4 的後續模型中逐步體現出來。另外需要特別註意的是：Agent 是一種能力，是 AI 重構人機互動方式實作的工具。Agent 能力既可以通過 AI 重構硬件來實作，也可以透過 AI 改造軟件來體現（軟件的自動化執行）。

AI Agent：LLM 推動 AI Agent 進入新階段

LLM 推動 AI Agent 進入新階段。AI Agent 經歷了幾大階段，包含：1）符號 Agent：采用邏輯規則和符號表示來封裝知識並促進推理過程，典型代表為基於知識的專家系統；2）反應 Agent：主要關註 Agent 與其環境之間的互動，強調快速和即時的響應，設計時優先考慮直接的輸入輸出對映；3）基於強化學習的代理：主要關註如何使 Agent 透過與環境的互動進行學習，典型代表如 AlphaGo；4）具有遷移學習和元學習的 Agent：引入遷移學習實現不同任務之間知識的共享和遷移，透過元學習使 Agent 學習如何學習；5）基於大型語言模型(LLM)的代理。將 LLM 作為大腦的主要組成部份或 Agent 的控制器，並透過多模態感知和工具利用等策略擴充套件其感知和行動空間，透過思維鏈（CoT）和問題分解等技術使 Agent 獲得與符號代理相當的推理及規劃能力，並且可以透過從反饋中學習和執行新的行動，獲得與環境的互動能力。

智能助手到 Agent：由搜尋匹配走向規劃與互動式決策

聊天機器人：主要基於知識圖譜、檢索等技術。為在 AI Agent 之前，典型的以人機自然交互為特點的產品包括智能語音助手、開域聊天機器人。從架構看，開域聊天機器人以釋出於 2014 年 5 月的微軟小冰為例，其架構主要包括對話管理模組、技能庫，其中對話管理模塊主要使用同理心計算方法，利用對話背景、使用者查詢、使用者資訊等維度的資訊構建對話狀態向量，並據此決定之後的對話策略。聊天模組則透過檢索產生回答候選集（包括基於配對數據的檢索、使用 GRU-RNN seq2seq 框架的神經響應生成器、知識圖譜+未配對數據等方法），並利用排序模組進一步選擇回答。從技術上看，開域聊天機器人具備 AI Agent 的雛形，主要透過向量計算、基於 RNN 框架的生成、知識圖譜強化等技術實作對人類意圖的準確理解及回應。智能語音助手：架構上已經具備意圖分析、任務規劃、服務呼叫等模組。以 Siri 為例，智能語音助手的架構與 AI Agent 具備一定相似性。該系統可劃分為輸入系統、活躍本體、執行系統、服務系統和輸出系統五個子系統。在活躍本體內部，利用各種詞典資源，模型資源例項化對使用者的輸入資訊進行具體加工；執行系統則是將使用者原始的文本輸入解析為內部的語意表示，並決定下一步操作，包括「對話流控制器」（根據領域判斷誘導使用者提供所需的參數）、「任務流控制器」（被「對話流控制器」呼叫，界定完成一件任務或者解決某個問題由哪些步驟構成, 這些步驟之間是何種關系，Siri 的任務模型是由一些領域無關的通用任務模型和若幹領域相關任務構成）。我們認為從架構上看，智能語音助手已經具備意圖分析、任務規劃、服務呼叫幾大核心模組。

從輸入到輸出，AI Agent 技術框架基本確立。當前對 AI Agent 整體框架的設計基本上可以分為感知、定義、記憶、規劃、行動五類模組，其中感知模組主要處理各類輸入，解決智能體與環境互動的問題；定義模組主要包含了 Agent 的內容、目標等資訊；記憶模組包括短期記憶及長期記憶，用於面對復雜任務時提供歷史策略等；規劃模組包括任務的分解、反思、推理推斷、策略制定等，是 Agent 的大腦；行動模組包括以文字、具身行動、工具指令等多種形式輸出結果。從偏向於輸入端的感知、定義，到處理端的記憶、規劃，再到輸出端的行動，我們認為 AI Agent 的技術框架與此前智能語音助手的技術框架在模組設定上存在一定相似性。

AI Agent 架構與當前主流計算架構有相似性。在【Agent AI Towards a Holistic Intelligence】中，研究人員闡述了新的 Agent 範式，Agent AI 能夠基於感官輸入自主執行適當的和上下文相關的動作，與先前互動策略的區別是在訓練後，主體的行動將直接影響任務規劃，而不需要從環境中接收反饋來規劃其後續行動作為先前的互動範式。當前電腦主流的馮·諾依曼結構則是事先將編制好的程式（含指令及數據）存入主記憶體中，電腦在運行程式時自動地、連續地從記憶體中依次取出指令且執行。從構成上看，馮·諾依曼機由運算器、記憶體、控制器、輸入器材和輸出器材五大部件組成；AI Agent 同樣具備輸入資訊、處理資訊、輸出資訊的三大部件，在架構上二者具備相似性。

AI Agent 是 LLM 和人類在計算任務中分工的重新劃定。相比主流的計算架構，AI Agent 實作了能力的進一步提升。AI Agent 主要由在環境和感知中具有任務規劃和觀察能力的 Agent（感知可類比輸入、規劃可類比人類規劃）、Agent 學習（強化學習，類比人類反思）、記憶（類比儲存）、行動（類比輸出）、認知和意識（類比控制）五個模組構成，模組上基本能夠對應。從作用上 AI Agent 的感知方面更加強調對於多模態資訊的獲取能力，不局限於數據的輸入；認知方面主要用於協調每個 Agent AI 元件，強調了復雜動態環境中互動式 Agent 的整合方法的重要性，突出了互動式決策的作用。我們認為 AI Agent 實作了將人類利用編程解決特定任務的過程進一步的接管，從解決問題的執行環節進一步向思考如何解決問題的規劃環節滲透。

AI Agent 具備兩條能力提升路徑。根據分工劃分模組的方式是當前得到較為廣泛采用的 AI Agent 技術框架，與之對應的，針對 AI Agent 的能力提升同樣可以從分模組能力突破、系統性最佳化兩條路徑展開。在分模組能力突破中，相比於 LLM 支撐的聊天機器人（如 ChatGPT），我們認為 AI Agent 在感知模組中具備更加豐富的模態理解能力，在記憶模組中能夠結合更加豐富的數據來源，在規劃模組中具備更強的規劃、反思能力，在行動模組中能夠提供更加豐富的輸出，此外在系統性最佳化的過程中，AI Agent 也有望逐步向通用人工智能過渡。

分模組持續突破+系統性最佳化推動 AI Agent 能力提升

感知：模型端原生多模態推進，Agent 多模態感知能力可期

感知模組：從單一模態向多模態延伸。感知模組的核心功能主要是幫助 Agent 獲取資訊，可以與電腦中的滑鼠、鍵盤等各類輸入器材進行類比。從核心功能看，基於 LLM 的 AI Agent 在資訊輸入方面強調多模態感知的能力，包括視覺、聽覺、觸覺等感知能力，涉及文本、影像、影片、3D 等多種模態。從落地路徑看，當前對於跨模態的落地方式主要包括通過變換器將非文本模態轉為文本模態、對非文本模態進行編碼並將編碼器與 LLM 對齊，或透過結合思維鏈技術、結合知識，強化 Agent 對於不同模態資訊的理解能力。

端到端原生多模態模型不斷落地。從產業進展看，端到端的原生多模態模型逐步落地。2023 年 11 月 Google 推出原生多模態模型 Google Gemini，從一開始便在不同模態上（包括文字、音訊、圖片、影片、PDF 檔等）進行了預訓練，然後利用額外的多模態數據進行微調以提升有效性，實作了多模態數據訓練的突破。2024 年原生多模態模型在套用端進一步取得突破，2024 年 5 月 Open AI 釋出 GPT-4o，不同於傳統的模型級聯和拼接，GPT-4o 是跨文本、視覺和音訊端到端地訓練的新模型，這意味著所有輸入和輸出都由同一神經網絡處理，基於此，我們認為相較於此前的智能語音助手，基於 LLM 的 AI Agent 對於多種模態資訊的綜合處理能力進一步加強。

記憶：模型端上下文長度持續突破，向量外部儲存與檢索強化長期記憶

記憶模組：短期記憶關註模型變化，長期記憶關註數據處理與檢索技術。在記憶模組中，現有研究多數把記憶劃分為短期記憶、長期記憶，其中短期記憶主要來自於上下文學習，受到 Transformer 的有限上下文視窗長度的限制，長期記憶則具備參數知識儲存（模型訓練）、非參數知識儲存（外部搜尋）的方式實作，目前常用的方式主要是透過外部向量儲存，Agent 以查詢的方式快速檢索存取。相較於智能語音助手產品長期記憶主要記憶的是使用者個人信息等靜態資訊，長期記憶的內容進一步豐富、數據量進一步提升；短期記憶系統則實作了更長的對話內容支持，有助於進一步解決復雜問題。

大模型支持上下文長度持續上升，外部儲存方式不斷豐富。隨著大模型的叠代持續推進，當前大模型所能支持的上下文長度不斷提升，2024 年 5 月 Google 在 Google I/O 2024 開發者大會上宣布推出 Gemini 1.5 Pro 的個人預覽版，最多可容納 200 萬 token 數。我們認為隨著大模型支持上下文長度的提升，大模型賦能的 Agent 在短期記憶能力方面或將進一步上升。在長期記憶方面，外部儲存的方式也不斷豐富，提供相關產品的廠商包括向量數據庫廠商、添加向量檢索功能的傳統數據庫廠商、封裝向量及知識庫的套用廠商。

規劃：關註 LLM 對於任務分解演算法及反思提煉能力的改變

規劃模組：目標分解與反思提煉為兩大核心任務。規劃模組是 AI Agent 能夠解決復雜問題的關鍵模組，從功能看主要包括子目標分解、反思及提煉等，其核心能力來自於底層模型的推理能力。電腦誕生初期，多步驟問題的規劃往往由人腦完成，電腦充當解決問題的工具。而隨著任務分解演算法（如層次化任務網絡 (HTN)、任務樹、分層強化學習、規則引擎等）的發展，電腦開始承擔部份的規劃任務，如智能語音助手中的任務流控制器主要用於分解任務步驟，判斷步驟關系，RPA 與業務規則引擎結合實作業務流程的自動化等。隨著 LLM 技術的發展，透過微調或思維鏈（CoT）等技術對 AI Agent 進行幹預，使 Agent 逐步提升了規劃的效率。

利用 ReAct 方式發揮 LLM 推理能力。ReAct（Reasoning and Acting）指使用 LLM 以交錯的方式生成推理軌跡和特定於任務的操作，從而實作兩者之間的更大協同作用：推理軌跡幫助模型誘導、跟蹤和更新行動計劃以及處理異常，而操作允許它與外部源（例如知識庫或環境）互動以收集更多資訊。具體可透過為每個工具提供描述，讓 LLM 選擇工具，或為 Agent 提供搜尋工具、尋找工具，讓 LLM 與文件庫互動。ReAct 方式能夠將必要的知識提供給 LLM 供其分析決策，避免其因使用超出訓練過程中的數據進行邏輯分析時產生幻覺和錯誤判斷的情況。但從當前的實踐看，ReAct 方式仍然存在對於復雜問題的解決能力有限、成本相對不可控（LLM 拆解、迴圈任務的方式存在不確定性）、響應速度較 API 慢等局限性。我們認為未來隨著 LLM 效能的提升及 LLM 工程化落地方式的創新，LLM 推理能力有望得到更加充分的發揮。

行動：工具使用能力為關鍵，具身智能為新方向

行動模組：關註微調、工具使用與具身智能技術發展。行動模組是 AI Agent 輸出推理結果，對外部產生影響的重要途經，從輸出的形式看包括文本、對工具的使用、具身動作等。在工具使用方面，當前主要的落地方式是透過微調或預先設定的模型描述框架，讓 Agent 調用對應的外部 API，從而實作對現成功能的使用或對特定資訊的存取搜集。而透過元工具學習等方法，Agent 對於工具的使用能夠在同類別的不同具體工具之前實作技能的遷移，未來隨著模型能力的進一步提升，Agent 有望實作對工具的建立；隨著具身智能技術的發展， Agent 有望對物理世界產生進一步的影響。

多路徑共同提升 Agent 整體智能化水平，有望逐步通向整體智能

LLM+Agent 是通向通用人工智能（AGI）的路徑之一。AI Agent 用來描述表現出智能行為並具有自主性、反應性、主動性和社交能力的人工實體，能夠使用傳感器感知周圍環境、做出決策，然後使用執行器采取行動，具備以上特征的 Agent 是實作 AGI 的關鍵一步。據 2023 年 11 月 Google DeepMind 釋出的論文【Levels of AGI: Operationalizing Progress on the Path to AGI】，考慮 AGI 效能、通用性和自主性級別，AGI 的發展可按 L0-L5 分級。按該分級方法，目前在狹義 AI 上人類已經實作了在特定的任務上讓 AI 超越人類，但是對於廣義的 AGI 僅實作到 L1 階段，典型代表是 ChatGPT、Bard 和 Llama。從更廣義的評判標準看，基於 LLM 的 Agent 評估工作還從效用、社會性、價值等角度開展，我們認為當前基於 LLM 的 Agent 從能力上看受到 LLM 能力上限的限制，未來隨著 Agent 的不斷升級，有望逐步逼近 AGI，具體的路徑包括模態豐富、具身智能、多 Agent 協同、系統最佳化等。

路徑一：模態豐富+具身智能+多 Agent 協同

Agent 具有五個層級，資訊維度不斷豐富有望推動能力提升。Yonatan Bisk 在【Experience Grounds Language】中提出 World Scope (WS)，來描述自然語言處理到通用人工智能（AGI）的研究進展，包括語料庫-互聯網-感知（多模態 NLP）-具身-社會 5 個層級。當前多數 LLM 建立在互聯網層級，具有互聯網規模的文本輸入和輸出。而隨著 LLM 進一步配備擴充套件的感知空間和行動空間，有望進一步通向感知、具身層級，未來多個 Agent 共同工作，有望產生湧現的社會現象，達到第五層級。

多 Agent 協同或出現團體行為，提升智能化程度。從 Agent 落地方式看，可分為單 Agent 部署、多 Agent 互動和人-Agent 互動三種方式，其中多 Agent 互動及人-Agent 協同透過不同的方式給予 Agent 反饋，有助於 Agent 不斷強化解決問題的能力。更進一步的模擬 Agent 社會框架中，在個人層面 Agent 表現出計劃、推理和反思等內在行為，以及涉及認知、情感和性格的內在個性特征。Agent 和其他 Agent 可以組成團體並表現出團體行為，如合作。在環境中其他 Agent 也是環境的一部份，Agent 有能力透過感知和行動與環境互動。

關註基礎智能體進展。據輝達科學家 Jim Fan 的演講，基礎智能體（Foundation Agent）是掌握廣泛技能，控制許多身體，並能夠泛化到多個環境中的單一演算法。隨著模型得到信息數量的提升及訓練速度的加快，理論上模型能夠掌握的技能數量、可控制的身體形態或載體、所能掌握的現實情況有望不斷提升。例如在 Minecraft 中，Voyager 透過引入反饋（來自程式碼執行錯誤、虛擬人物狀態、虛擬環境狀況），使虛擬人物在遊戲環境中能夠不斷學習新的技能；機器人訓練 Agent MetaMorph 透過設計特殊詞匯描述機器人的具體身體部位，利用 Transformer 輸出電機控制，實作對機器人的控制。透過對訓練進行加速，有望將 Agent 的能力進一步泛化，最終實作自主的基礎 Agent。

路徑二：透過提升整體性或利用工作流解決復雜問題

透過提升 Agent AI 整體性有助於解決復雜問題。除了單個模組、環節的技術突破，模組間的互動方式也是 Agent 能力的重要影響因素。當前的 AI Agent 對於被動結構化任務的處理已有較為豐富的實踐，但距離在復雜環境中扮演動態互動角色仍有一定的差距，我們認為除了單個模組的能力提升，圍繞 AI Agent 整體系統的最佳化或將成為 AI Agent 能力進一步提升的重要驅動力。據【Agent AI Towards a Holistic Intelligence】，研究人員提出一個將大型基礎模型整合到 Agent 動作中的具體系統——Agent AI 系統，該系統強調 AI 作為有凝聚力的整體發揮作用。按系統層級看，自下而上分別為數據-預訓練模型-調優模型-任務-跨模態-不可知的現實（新範式/物理世界/虛擬現實/元宇宙/湧現能力等）-整體智能。在數據端，該系統強調利用不同環境之間的互動獲取的跨模態數據，在系統端則結合了大型基礎模型對開放世界環境中感官資訊的理解，最終 AI 展示了較好的跨學科、跨任務能力，涵蓋了機器人、遊戲和醫療保健系統等新興領域。長期看該路徑或將逐步通向整體智能。

Agent Workflow 透過流程最佳化提升任務效果。2024 年 3 月，史丹福大學吳恩達教授在博客中提出在 HumanEval 數據集中，使用 GPT-3.5（Zero-shot）的測試正確率為 48.1%。 GPT-4（Zero-shot）為 67.0%。而透過與 Agent workflow 配合，GPT-3.5 實作了 95.1%的正確率。在加入 Agent workflow 後，模型在具體任務中的能力有了明顯的提升。Agent workflow 是一種新的工作流程，要求 LLM 多次叠代文件。從設計模式上，Agent 有四種模式：1）Reflection(反思):讓智能體審視和修正自己生成的輸出；2）Tool Use(使用工具): LLM 被賦予 Web 搜尋、程式碼執行或其他功能，以幫助它收集資訊、采取行動或處理數據；3） Planning(規劃 ): 讓 LLM 提出並執行一個多步驟計劃來實作目標； 4） Multiagent collaboration(多智能體協作)：多個智能體合作完成任務。我們認為 Agent Workflow 透過對 LLM 套用的流程最佳化，有助於提升 Agent 解決具體任務的準確性，LLM 套用端廠商有望借鑒此方法推動更多垂類 LLM 落地。

AI Agent 技術逐步落地，智能性仍有提升空間

從 AI Agent 的落地方式看，基於 LLM 的 Agent 產品眾多，但各自在自主程度，能力範圍上有一定差異。本節我們選取部份典型案例展開分析，具體包括： AutoGPT（2023.3）、卡耐基梅隆大學智能 Agent 系統（2023.4）、Devin（2024.2）。

AutoGPT：利用 LLM 逐步拆解任務，外掛外掛程式提升能力

AutoGPT 具備 AI Agent 的雛形。AutoGPT 是一個構建在 GPT-4 基礎上的開源 Python 應用程式,由影片遊戲公司 Significant Gravitas Ltd 的創始人 Toran Bruce Richards 於 2023 年 3 月 30 日推出，其功能包括從互聯網收集資訊、儲存數據、透過例項生成文本、存取各種網站和平台以及使用 LLM 執行摘要的能力，常用於市場研究、網站建立、網誌寫作和創建播客。從所需工具看，構建 AutoGPT 需要 Python（程式）、OpenAI API 金鑰（大模型）、 Pinecone API 金鑰（向量數據庫產品）、Git（開放源碼版本控制）、ElevenLabs API（可選語音相關模組）。我們認為 AutoGPT 具備實作多種任務的能力，具備 AI Agent 的雛形。

利用 LLM 拆分任務。從實作功能的步驟看，AutoGPT 的構建分為：1）本地下載 Auto-GPT 專案及相關資源；2）輸入 AI 名稱、AI 角色以及最多 5 個目標；3）任務建立或排序：了解目標，生成任務列表，並提及實作這些任務的步驟，審查任務順序以確保其在邏輯上有意義；4）任務執行：利用 GPT-4、互聯網和其他資源來執行這些任務；5）生成結果：具體結果形式包括 Thoughts（AI Agent 在完成動作後分享他們的想法）、Reasoning（解釋了為什麽選擇特定的行動方針）、Plan（該計劃包括新的任務集）、Criticism（透過確定局限性或擔憂來批判性地審查選擇），本質上是 ReAct（Reason+Act）的套用。從實作步驟看，人類在其中給出基本的任務步驟後，AutoGPT 透過呼叫 LLM，實作對任務的理解與拆分。 LLM 分解任務受模型能力及數據的限制。AutoGPT 的能力範圍仍然受到 Python 函數集能力邊界的限制，在搜尋網絡、管理記憶體、與檔互動、執行程式碼和生成影像等具備較豐富可呼叫函數的領域效果較好，但對於更為復雜的任務處理能力有限。此外，LLM 在分解問題的模式上較為固定，並且存在受到預訓練數據和知識的限制，對於重復出現的子問題識別能力不足等問題。

透過呼叫外掛程式實作能力的擴充套件。2023 年 6 月 Auto-GPT 更新至 v0.4.1，AutoGPT 對於外掛程式的支持進一步強化，從外掛程式的功能看，第一方外掛程式主要功能包括資訊檢索（搜尋引擎、新聞、社媒、百科等）、任務規劃、智能生成（郵件回復等）、API 呼叫等；第三方外掛程式則實作了對 AutoGPT 能力邊界的進一步擴充套件，添加了交易、使用 AI 工具、數據庫查詢、功能集成等。我們認為外掛程式幫助 AutoGPT 進一步提升了用工具獲取資訊、加工資訊的能力，使得 Agent 的能力邊界得到進一步的延展。

卡耐基梅隆 Agent：利用 LLM 強化資訊獲取及工具使用

利用 LLM 強化搜尋。2023 年 4 月卡耐基梅隆大學在論文【Emergent autonomous scientific research capabilities of large language models】中提出了一個智能代理系統，它結合了多種大型語言模型，用於自主設計、規劃和執行科學實驗。其中利用 LLM 的模組包括「網頁搜尋器」、「文件搜尋器」，無需 LLM 的模組包括「程式碼執行器」、「自動化」，另有 Planner 模組用於協調各個細分模組。Planner 模組輸出 Google 查詢指令給網頁搜尋器、輸出文件查詢指令給文件搜尋器，進行文件的尋找梳理，為執行部份提供所需的參數及文件資訊，最後由程式碼執行器、自動化模組進行實驗。在此案例中，LLM 主要用於強化文件及互聯網知識的檢索，實質上對具體任務的執行過程由搜尋結果得到。

透過細分領域內容提升執行準確度。在本案例中，透過為文件搜尋領域添加垂直領域內容有助於提升執行的準確度。具體來看主要有兩種方式，第一種是透過對指令進行編碼並結合向量搜尋，對專門的 API 文件進行搜尋與匹配，提升輸入 Planner 的編碼質素；另一種方式是透過補充文件指南，提示使用專用工具的特定語言體系進行功能推薦。結合了專業知識庫及文件後，Agent 的知識範疇不再局限於大模型訓練的語料，能夠完成對具體工具的正確使用。在本案例中，Agent 自動調整程式碼以應對專用軟件包缺失、自動搜尋說明文件調整工具的效果，並完成了布洛芬的合成、阿司匹林合成、鈴木反應研究、天門冬胺酸合成。

Devin：利用 AI 實作自主編程

Devin利用 AI實作自主編程。2024年3月AI初創公司Cognition釋出AI軟件工程師Devin， Devin 可以規劃和執行需要數千個決策的復雜工程任務，可在每一步都回憶起相關的上下文，隨著時間的推移學習，並糾正錯誤，此外 Devin 還可以與使用者積極協作，即時報告其進度，接受反饋，並根據需要與使用者一起完成設計選擇。研究人員在 SWE 基準上評估了 Devin，要求代理解決 Django 和 scikit-learn 等開源專案中發現的現實 GitHub 問題。Devin 端到端正確解決了 13.86%的問題，遠遠超過了之前 1.96%的最先進水平。Devin 沒有得到幫助，而所有其他模型在給出了要編輯的確切檔的條件下，以前最好的模型也只能解決 4.80% 的問題。

多種 AI 技術結合，Agent 形態初具。從技術方面，Devin 整合了機器學習、深度學習和自然語言處理，以理解程式碼、從現有模式中學習並自主生成程式碼，並配備了自己的程式碼編輯器、命令列和瀏覽器。從 Devin 的任務實作方式看，主要分為幾個步驟：1）理解使用者意圖，透過 LLM 等 NLP 技術分析使用者的自然語言描述，提取關鍵功能和要求，將使用者分解為任務清單；2）自主學習專業材料（如 API 文件、開源庫、源碼），掌握程式碼結構，LLM 技術可用於加強對專業材料的理解能力，程式碼結構的模式辨識與匹配則可以透過機器學習模型強化；3）生成程式碼並根據使用者的提示調 Bug。我們認為從實作方式看，對於現有文件的學習與實踐，已經初步具備 Agent 的形態，未來隨著模型能力的進一步提升，Agent 在細分領域的能力有望進一步提升。

AI Agent：智能性仍有提升空間，關註 Agent Workflow

模型架構突破+特定數據推動 LLM Agent 能力突破。從 AI Agent 的落地方式看，基於 LLM 的 Agent 實踐已經取得一定的成果。具體包括：1）利用 LLM 較強的文本處理能力，實作了資訊檢索及工具使用效率的提升；2）利用 LLM 的任務分解能力，實作了簡單問題的步驟分解與規劃；3）利用 LLM 的文本生成能力，打造更加自然的人機互動；4）利用 LLM 的可偵錯性，打造能夠解決垂直領域任務或具備垂直領域知識體系的套用。以上能力突破的基礎一方面來自於 Transformer 架構下，LLM 能力相比傳統 NLP 方法的效率提升，如更加自然的人機互動、更強的文本處理能力；另一方面則來自於特定數據類別訓練賦予 LLM 的能力，如從任務分解數據訓練中得到的任務規劃能力、配置特定檔後得到的解決特定領域問題的能力。

LLM Agent 自主化、智能性仍存在提升空間。從 LLM Agent 的實踐看，當前的 LLM Agent 對於執行特定領域的任務已經體現出一定的自主性（如完成科學試驗、搜尋資料撰寫報告等），LLM 對於固定範式下解決問題能夠實作較好的自動化，但在解決問題的泛化能力方面，當前主要的 Agent 產品仍距離通用的 Agent 有一定的差距。主要體現在：1）任務規劃方面：當前 Agent 主要基於現有的成熟任務流程進行復現，或基於訓練數據對任務進行簡單的拆分；2）工具使用方面：當前 Agent 基本按照人類的部署進行流程化的操作和嘗試，工具的使用主要透過呼叫第三方 API 進行。未來隨著底層模型能力的提升。我們認為 AI Agent 有望在以下方面實作能力提升：1）在任務規劃方面從基於規則、參數的規劃能力逐步向基於實踐的反思、叠代前進演化；2）在工具使用與選擇方面，從基於人類配置的特定工具，向多種工具的選擇規劃前進演化，甚至更進一步的創造適用於 LLM 的工具。

模型&MaaS 廠商：憑豐富工具&實踐經驗把握發展機遇

MaaS 廠商側重 2B 業務場景：2B 提供落地工具+2D 提供開發框架

面向 2B 市場，MaaS 廠商不斷完善 Agent 落地工具。大模型廠商與 MaaS 廠商合作，共同為 B 端客戶提供基於大模型的產品，其中大模型廠商推動底層模型的能力升級，MaaS 巨頭則憑借良好的產品、客戶基礎，提供相應的開發及客製化工具，幫助 B 端客戶打造基於大模型的業務套用。其中較有代表性的廠商為微軟、Amazon、Google。我們認為 MaaS 廠商透過雲服務實作了基礎軟件層面的良好卡位，而 AI Agent 在 B 端落地及 D 端開發的過程中多需要數據的呼叫及算力的支撐，MaaS 廠商憑此前的良好卡位實作了業務的延伸，通過提供落地工具和開發框架，成為 AI Agent 市場的重要參與者，也有望首先受益於底層大模型能力突破帶來的 AI Agent 發展機遇。

2B：基於業務卡位，提供落地工具

Microsoft Copilot Studio 新增智能 Copilot 功能。在 Microsoft Build 2024 上，微軟釋出 Microsoft Copilot Studio 新功能，讓開發者能根據特定任務和功能，構建主動響應數據和事件的「智能 Copilot」。基於這類新功能的「智能 Copilot」可透過記憶和知識了解上下文、推理操作和輸入，基於使用者反饋進行學習，並在不知道如何處理時尋求幫助，從而獨立管理復雜、長期執行的業務流程。在技術架構上，透過 Instructions（指令）+Triggers（動機） +Knowledge（知識）+Actions（行動）的流程，實作 AI 的自動化套用。此外包括外掛程式和連接器在內的智能 Copilot 擴充套件，允許客戶透過將其連線到新的資料來源和應用程式來增強 Microsoft Copilot 智能副駕駛，從而擴充套件其功能。此外，智能 Copilot 還可透過反饋不斷改善。微軟透過在 2B 客製化工具 Microsoft Copilot Studio 中提供智能 Copilot，實作了 AI 與工作流的初步結合，打造了垂直場景中 AI 的自動化套用。

在 IT、人力、行銷等套用場景下實作 AI+自動化。從器材采購到銷售和服務的客戶接待，使用者都可以讓基於 Microsoft Copilot Studio 構建的智能副駕駛為其工作。例如：1）IT 幫助台。IT 支持涉及工單、訂單號、批準和庫存水平，Copilot 與 IT 服務管理應用程式互動，根據上下文和記憶解決 IT 工單，建立器材更新的采購訂單，以及聯系經理並獲得批準；2）員工入職。Copilot 會迎接新員工，解釋人力資源數據，並回答問題。它會向新員工介紹夥伴，提供培訓和截止日期，協助填寫表格，並安排第一周的會議，指導新員工完成為期數周的入職和帳戶設定流程；3）銷售和服務的私人禮賓服務。可利用與客人之前對話的記憶來記住客人的偏好、進行預訂、處理投訴並回答與所提供的產品和服務相關的問題。Copilot 從互動中學習並提出處理客戶場景的新方法。

Amazon：透過 Bedrock 提供 Agents 相關功能。在模型個人化方面，借助 Agents for Amazon Bedrock，使用者可以透過簡單的幾個步驟建立和部署完全托管式的 Agent，透過動態呼叫 API 來執行復雜的業務任務。Amazon Bedrock 可以根據使用者提供的自然語言指令，如「你是專門處理未結理賠的保險代理人」，完成任務所需的 API 架構，並使用來自知識庫的私有數據來源詳細資訊建立提示語。Agents for Amazon Bedrock 可將使用者請求的任務分解為較小的子任務，Agent 會確定正確的任務順序，並處理中途出現的錯誤狀況。

Amazon Bedrock Agent 與 Amazon 產品產生良好協同。Amazon 在雲服務領域具備良好的產品積累，一方面，Agent 產品與 Amazon 原有基礎軟硬件產品能夠實作良好的協同，在向量數據存取方面推出 Amazon OpenSearch Serverless 服務，幫助個人化數據與 AI 實現良好整合、在套用端推動 AI 與 Amazon QuickSight 等套用的結合；另一方面，Agent 工具與公司本身業務系統能夠實作良好的整合。如 Agent 能夠和知識庫協同工作，從而實作任務編排、互動式數據收集、任務旅行、呼叫 API、數據查詢、來源歸因等任務。透過檢索增強生成，能從使用者選擇的相應知識庫中尋找資訊，並提供回復。得益於 Amazon 在基礎層的良好基礎，Agent 具備較好的可控性，能夠實作追蹤思維鏈推理、自訂操作架構，並在 Agent 呼叫操作時重新獲得控制權等功能，能夠在所選的後端服務中實作業務邏輯。能夠在後台執行耗時的操作（異步執行），同時繼續編排流程。

2D：提供開發框架，卡位開發者場景

面向 2D 市場，MaaS 廠商提供底層的開發框架。如微軟 AutoGen 框架，支持使用多個代理來開發 LLM 應用程式，這些代理可以相互對話來解決任務。AutoGen 代理是可客製的、可對話的，並且無縫地允許人類參與。他們可以采用 LLM、人力輸入和工具組合的各種模式運作。AutoGen 可用於定義代理互動行為，開發人員可以使用自然語言和電腦程式碼為不同的應用程式編寫靈活的對話模式。透過自動化多個語言模型代理之間的聊天，開發人員可以輕松地讓他們自主或根據人工反饋共同執行任務，包括需要透過程式碼使用工具的任務。 AutoGen 提供多代理會話框架作為高級抽象，使用此框架可以方便地構建大語言模型工作流程。同時，AutoGen 還提供一系列工作系統，涵蓋了來自各個領域的廣泛套用，包括自動轉譯、自動摘要、智能建議等。 AutoGen 還支持增強型大語言模型推理 API，可用於提高推理效能並降低成本。

模型廠商落地：GPTs 透過配置實作客製化，打造 LLM 垂直領域助手

三大功能打造客製 GPT。GPTs 是為特定目的建立的 ChatGPT 的自訂版本，由 OpenAI 於 2023 年 11 月推出。在構建方式上，GPTs 透過提供 Instructions、Expanded knowledge、 Actions 三大能力，最佳化套用的個人化、垂直化、融合化能力。1）Instructions：使用者可在 Configure 界面手動補充希望 GPT 套用實作的個人化能力；2）Expanded knowledge：用戶可在 Configure 界面上傳額外的檔作為套用的知識參考，打造符合垂直場景、具備專業知識的垂類套用；3）Actions：使用者可額外添加 ChatGPT 與其它應用程式的連線，進一步實作模態融合與套用融合。此外在配置索引標籤中還可以進行自訂操作，即可以透過提供有關端點、參數的詳細資訊以及模型應如何使用它的描述，實作對第三方 API 的呼叫。

GPTs 具備垂直化、多模態、開放性特點。OpenAI 官方推出 16 個 GPTs 套用，涵蓋工作、學習、生活、體驗四大套用場景。配置了特定的檔後 GPTs 能力邊界得到拓展，可用於為使用者提供棋盤遊戲介紹、數學題指導等，載入多模態模組後的 GPTs，能夠生成貼紙、繪本等圖片。第三方 GPTs 則包括工作助手、學習助手、生活助手、趣味工具等。從落地產品特點上，我們認為 GPTs 具備垂直化、多模態、開放性的特點。垂直化指套用多基於垂直場景的知識基礎（特定 IP、特定領域知識等）；多模態指套用結合了文本、影像、音訊、影片等多種模態，提供了豐富的呈現方式；開放性指在套用的開發上門檻較低，使用者可通過簡單的配置實作特定領域 GPTs 的開發。

套用廠商：具備垂直數據與工程化優勢，關註工作流卡位

與工作流結合，推動 Agent 落地——以 Servicenow 為例

Servicenow：具備覆蓋多個工作流的業務基礎。ServiceNow 主要產品 now 平台。公司基於統一的 Now 平台為客戶提供工作流的自動化和數碼化解決方案。其中技術工作流（Technology）包括 IT 服務管理、IT 營運管理、IT 資產管理、安全營運、整合風險管理、戰略投資組合管理、ServiceNow 雲可觀測性等。客戶和行業（Customer and Industry）及員工工作流（Employee）包括客戶服務管理、現場服務管理、人力資源服務交付、工作場所服務交付、法律服務交付等。建立者工作流（Creator）和其他包括應用程式引擎、自動化引擎、平台基礎、源到支付操作等。Now 平台實作了對客戶多領域工作流的覆蓋，為 Agent 的落地打下了良好的基礎。

Now assist：AI 重要套用，場景不斷擴充套件。23Q3 公司在 Now 平台中加入了 Now Assist （AI 助手）功能，釋出 Now Assist for Search（從客戶環境中提取資訊，實作加強搜尋，精準回答）等產品。Now 平台的更新便於客戶在工作流中整合 AI 能力，相關功能在 ITSM、 HR、客戶服務和 Creator 四條產品線中投入使用。23Q4 公司釋出新功能 Now Assist in Virtual Agent，該產品透過高級對話式 AI 聊天加快了問題解決速度；Now Assist for Field Service Management 透過幫助技術人員在首次存取中完成工作、辨識必要的器材、提供維修建議並自動快速跟進，降低成本。

結合行業方案，打造 Agent 深入套用。ServiceNow 推出針對電信行業的生成式 AI 解決方案 Now Assist for Telecommunications Service Management（TSM），它基於 Now 平台構建。在產品特性上，TSM 具備如下特征：1）提供主動體驗。快速辨識並解決問題。為客戶提供自助服務工具，讓他們自行學習、進行更改和解決問題。2）自動解決問題。讓客戶了解當前的中斷以及如何解決這些中斷。3）利用 AIOps 和機器學習自動化和最佳化營運工作流，以提高整個組織的效率並降低成本。我們認為深化行業套用有助於 Agent 在垂直領域打造標桿套用。未來企業的工作流或以 gen AI 為核心進行設計，隨著即時數據打通、系統整合度進一步提升，自然語言或在部份場景中取代程式碼成為新的業務流程構建方式。

基於私有數據，打造智能套用——以 Salesforce 為例

基於私有數據，打造垂直領域智能套用。除了在原有系統中的工作流基礎，垂直業務數據也是套用廠商打造 Agent 套用的重要優勢。以 Salesforce 為例，其在行銷銷售等領域具備較好的業務數據基礎。基於此公司打造了適用於 CRM 的對話式 AI，特色是以客戶的公司數據為基礎。從產品布局看，2023 年 3 月公司釋出 AI 套用 Einstein GPT，首次將生成式 AI 套用到客戶關系管理領域；2023 年 9 月釋出 Einstein 1 平台（核心包括 AI 助手 Einstein Copilot），並與新的 Data Cloud 原生整合，客戶可以透過 Data Cloud 和 Tableau 接收、協調和探索數據，將數據的力量擴充套件到每個業務領域，為 AI 套用打造了良好的數據基礎。

透過擴充套件設定將 AI 嵌入工作流中。Einstein Copilot 可以透過擴充套件與原有工作流結合，可通過建立呼叫流程、Apex 程式碼、提示和 MuleSoft API 的自訂操作來擴充套件 AI 助手的功能，為 Copilot 提供精確的指示，以無縫執行任務並快速完成工作。具體包括：1）對話：向 AI 助手提問並給出指示。獲得清晰、可信且可操作的答復；2）操作：使用現成的操作查詢並匯總 Salesforce 中的記錄。根據獨特的業務需求建立自訂操作，提取相關數據；3）規劃師：生成並執行基於來自 CRM、數據雲或外部來源的業務數據的一組指導性操作；4）分析：使用全面的儀表板監控和改進 Copilot，以獲得諸如采用率、參與度和行動可用性等關鍵績效指標。

終端廠商：推動人機互動升級，率先實作 Agent 落地

AI+終端：結合安全性+個人化，為 Agent 落地打下良好基礎。垂直數據有助於 Agent 形成個人化的能力，AI 部署於終端有助於實作個人化和安全性的良好結合。以 AIPC 為例，通過 AI 能力的本地化部署，使 PC 擁有持續學習能力、提供個人化並保護使用者私密的服務、配備知識庫適應使用者需求以及可自然互動。AIPC 能夠根據使用者使用習慣、行為和喜好進行自適應和最佳化為使用者在操作過程中提供更多的個人化建議和支持。AIPC 在終端側進行運算，能夠提供更多的情境資訊，如使用者的移動狀態、個人偏好和器材上的多媒體資訊。基於終端的本地數據，Agent 能夠提供更加個人化的服務，本地處理也有助於保障數據的安全性，綜上，我們認為終端 AI 能力的加強有利於 Agent 落地加速。

智能電話：Siri 為 Apple Intelligence 重要互動入口。在智能電話領域，語音互動助手為 AI 重要的人機互動入口，有望成為 Agent 落地 C 端的重要場景。據 Apple WWDC，Siri 用戶每天發出的語音請求數量高達 15 億次。在 Apple Intelligence 的支持下，更加智能和自然，並且除了語音，也加入了文字互動能力。1）Siri 目前具有更好的語言理解能力，即使表述不清或者多次表述，Siri 也能辨識使用者意圖。2）Siri 也能做「視覺推理」，Apple 稱之為「螢幕感知」，可以理解螢幕上的內容並對其采取行動。3）Siri 能在保障私密情況下，利用使用者器材上資訊的了解來幫助找到正在尋找的內容，如短訊、郵件。4）在應用程式內和跨應用程式無縫地執行操作。例如美化照片後，將照片放到備忘錄的某條記事中。未來隨著 Siri 逐步接入多步驟任務處理等功能，有望推動智能電話端 Agent 的落地。

端側模型發展有助於 Agent 落地終端。以 Apple Intelligence 為例，其中基礎模型進行各種下遊任務微調，得到適合不同下遊任務的一組獨立模型；透過 Adapter 微調方法，得到模型權重的小集合，疊加在公共基礎模型上，讓基礎模型能夠選擇需要的能力；最後透過壓縮模型到適合端側的大小，使用最佳化演算法加速推理，實作在端側落地。對比 Agent 的技術架構，往往也需要基礎模型和小模型的共同支撐，我們認為端側模型技術的發展（模型壓縮等技術）有助於 Agent 落地於終端。

總結：從 AI Agent 有望逐步通向 AGI

基礎模型能力提升+工作流接入有望加快 AI Agent 商業化。從 Agent 的發展看，人類在逐步強化程式的自動化、智能化程度。在 AI Agent 的嘗試中，套用廠商結合深度學習等演算法、知識圖譜、RPA 等技術實作了部份的自動化，其核心是在存量知識的基礎上，實作由程式自主解決部份問題。LLM 的出現是這一框架下的重要突破，LLM 透過預訓練吸收知識，以大量參數儲存知識，透過 Transformer 的註意力機制，實作了對存量知識吸收理解效率的進一步提升。在解決問題的過程中，相較於傳統的 RPA 等基於規則的自動化方式，體現出了更強的靈活性。我們認為隨著基礎模型能力的進一步提升，AI Agent 在任務規劃中的靈活性、在知識吸收運用的效率方面的上限或將進一步提升。在當前的基礎模型能力下，若將 AI Agent 與工作流進一步結合，在工作流程中嵌入 AI Agent 實作部份問題的智能+自動化解決，AI Agent 實用性或將進一步改善，商業化或進一步加速。

從 LLM 到 AI Agent 到 AGI。據【On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence】（2022），智能的原則包括簡約性、自洽性。其中簡約性要求要求系統透過計算有效的方式來獲得緊湊和結構化的表示，自洽性要求自主智能系統通過最小化被觀察者和再生者之間的內部差異來尋求最自洽的模型來觀察外部世界。我們認為 LLM 以黑盒的方式實作了知識的高效吸收，透過人類對齊實作了自洽性；基於 LLM 的 AI Agent 在 LLM 基礎上能夠透過工作流方式引入人類對齊實作自洽，透過垂直數據強化特定領域的知識能力；而隨著知識壓縮的效率的進一步提升（Scaling Laws 或白盒大模型等方式），打造閉環系統完成對知識的驗證，未來有望逐步實作 AGI。

（本文僅供參考，不代表我們的任何投資建議。如需使用相關資訊，請參閱報告原文。）

精選報告來源：【未來智庫】。