科技巨頭都在卷的「智能體」，會成為「AI時代的App」嗎？

2024-08-31科技

這兩天，備受矚目的 OpenAI 新專案又有了新訊息。

The Information 援引內部訊息報道稱，OpenAI 計劃最快將在今年秋天推出代號「草莓（Strawberry）」的全新 AI，其擁有前所未有的「推理」能力，可以處理復雜的數學和編程任務，甚至還能體現在日常生活中的非技術問題上。

此外，報道還指出這項技術對未來 AI 產品，特別是旨在解決多步驟任務的「智能體（Agent）」具有重要意義。

又是智能體。

在 2022 年年底 ChatGPT 大火之後，「智能體」很快就從故紙堆中一躍而出，引起整個行業的廣泛關註。而從開源專案 AutoGPT 到 OpenAI 官方推出的 GPTs 和 GPT 商店，作為「雛形」，也都在一定程度上展現了 AI 智能體的潛力與必要。

但如果說在 2023 年，人工智能行業的發展和競爭更多還是聚焦在大模型本身，關於智能體探索才剛剛邁出第一步。那到了 2024 年，從 Google 到百度，從阿裏巴巴、字節跳動到 OpenAI，國內外都在明顯加快了智能體落地的步伐。

都在說「智能體」，但它到底什麽？

如果平常關註 AI 領域，我相信讀者們一定不少看到或者聽到「智能體」這個詞。但智能體到底是什麽？可能很難講清楚。

事實上，在 1995 年出版的【未來之路】一書中，微軟公司創始人比爾·蓋茨就提到了「智能體」的概念。但近三十年間，「智能體」的概念顯然發生了不小的變化，尤其是在 ChatGPT 之後基於大模型的「智能體」。

圖/ OpenAI

而時至今日，學術界對於「智能體」也沒有一個比較統一的定義。不過一般認為，「智能體」是能夠自主感知環境、做出規劃、執行任務的智能實體，不是「副駕駛」，而是主駕駛。

也可以用一個比較直觀的公式來表示：

Agent（智能體）= LLM（大模型）+Planning（規劃）+Feedback（反饋）+Tool use（工具使用）

以人類借助 ChatGPT 寫一篇文章為例，如果想要確保文章的質素，我們通常需要先確定一個選題，然後讓 AI 輔助生成文章大綱，再透過 AI 的搜尋能力進行分析、調研，然後再讓 AI 生成第一版，最後則是透過不斷地反饋最佳化內容，並得到最終的版本。

而 AI 智能體在大模型基礎上，透過自主的規劃、反饋和工具使用能力，進一步減少了人工介入的操作。 更具體來說，AI 智能體能夠自主使用資料搜尋、閱讀理解、數值計算等工具，再透過規劃「大綱——搜尋、分析、調研——初稿——反饋再最佳化」多步驟任務，實作「人類一句話，AI 跑斷腿」的效果。

簡言之，AI 智能體透過叠代和對話式的模式工作，不再是簡單的指令執行者，而是能夠進行自我反思、規劃和修正的參與者。

智能體是大模型上長出的「大家夥」

「智能體不僅會改變每個人與電腦互動的方式。它們還將顛覆軟件行業，帶來自我們從鍵入命令到點選圖示以來最大的計算革命。」

去年 11 月，比爾·蓋茨在其個人區域網絡站釋出了一篇題為【AI 將徹底改變電腦使用方式】的博文，認為 AI 智能體（AI Agent）將在未來五年顛覆人們使用電腦的方式。

堅定看好 AI 智能體的人當然不只是比爾·蓋茨。

吳恩達演講，圖/ YouTube

今年 3 月，史丹福大學教授吳恩達指出，他們在研究中基於 GPT-3.5 構建的智能體工作流在套用中表現可以比 GPT-4 要好，基於 GPT-4 構建的智能體工作流效果當然還可以更好。由此他還表示，AI 智能體將在今年（2024 年）推動 AI 的大規模進步：

甚至可能超過下一代基礎模型所帶來的影響。

到 7 月舉辦的世界人工智能大會上，基於大模型的智能體已經成為了絕對的焦點。螞蟻集團董事長兼 CEO 井賢棟在演講中表示，從實踐來看，專業智能體是大模型落地嚴謹產業的有效路徑。百度創始人李彥宏更是明確表示，智能體是百度最看好的人工智能套用發展方向。

同期，谷歌還推出了 AI 智能體平台 Oscar，讓開發者可以透過一定的配置就能生成各種的 AI 智能體。但類似的 AI 智能體平台不只是谷歌一家：

百度文心有 AgentBuilder，字節跳動有扣子（Coze）以及 HiAgent，阿裏巴巴有百煉智能體和釘釘智能體，騰訊微信有雲開發 AI 智能體……智能體平台逐漸開始成為大模型廠商的一種「標配」。 百度甚至還喊出了「人人都是開發者」的口號。

圖/扣子

可以說，在經歷 2023 年的思考和探索之後，AI 智能體在 2024 年已經成為了人工智能行業的新共識。

智能體讓AI從技術卷向場景

去年年底，OpenAI 推出了 GPTs 和 GPT 商店，允許使用者無需編碼就可建立自己版本的 GPT。但 GPTs 依然是充當「副駕駛」的角色，只是多了更多個人化客製的可能，並不能將任務拆解，並且一步步推算和執行。

事實上，今天很多標榜為 AI Agent 的「智能體」，其實更多還是 ChatBot（聊天機器人），反倒是釘釘的 AI 助理（英文名為 AI Agent）更接近實質上的智能體。

如何判斷並不困難，核心在於在任務過程中人工的介入程度，以及大模型在規劃、決策上的參與程度， 由此可以判斷一個名義上的「智能體」到底是更接近真的智能體，還是接近常規的 AI 聊天機器人。

圖/釘釘

但必須要指出，從「副駕駛」到「主駕駛」，當下的智能體在技術上還有很大的進步空間，並未能帶來顛覆性的體驗。不過更重要的是未來，比起以聊天為互動形式的聊天機器人，AI 如果想要更深入生活、改變生活，就需要讓 AI 擁有更強的自主性。

理想情況下，AI 智能體能夠根據各種條件智能地作出決策和規劃。 比如在制定旅遊規劃的時候，可以自主搜尋旅遊的交通住宿以及各種旅遊資訊，並且充分考慮使用者的歷史偏好和習慣，查漏補缺進行多次補充和修改。

又比如使用者在下班後夏夜裏，即將拖著疲累的身心到家，AI 應該可以根據汽車或者手機位置提前感知到，並根據位置和時間在不斷階段智能地開啟空調、掃地機器人、燈光等器材。

就如同在蓋茨的構想中，未來我們不再需要為不同的工作切換到不同的套用中，需要用平常的語言告訴電腦和手機想做什麽，而後根據使用者願意分享的數據，智能體將個人化地作出反應。

寫在最後

本質上，智能體其實是在 AI 的基礎上借鑒人類的思考方式，構建更加專業的推理和決策能力，以此提供更加智能化的使用者體驗。所以在一定程度上，AI 智能體相比 ChatGPT 更進了一步。

但可想而知的是，單一智能體無法滿足無數人的無數種需求，所以井賢棟認為未來智能化的使用者體驗需要很多的專業智能體共同參與、各司其職，李彥宏認為未來將出現數百萬量級的智能體。

下一個平台的競爭，勢不可擋。

而正如移動時代的 App Store，伴隨智能體的興起，AI Agent Store 也在成為新的競爭焦點。所以除了場景上的角力，對擁有基礎大模型的大廠來說，生態更是智能體發展過程中核心之一，也是兵家必爭之地。