OpenAI神秘草莓遭截胡，AI智慧體成「新寵」？

2024-08-24科技

文 | 極智GeeTech

大模型的下半場，正在進入「智慧體」湧現時間。

最近，OpenAI 的秘密計畫「Q*」一直受到了圈內人士的廣泛關註。上個月，以它為前身、代號為「草莓（Strawberry）」的計畫又被曝光了。據推測，該計畫能夠提供高級推理能力。

就在人們翹首以盼「Q*」的時候，一家名為MultiOn的初創公司的CEO Div Garg在推特上頻頻使用草莓表情，並釋出了一款名為Agent Q的智慧體，讓人不禁聯想到OpenAI神秘的Q計畫。

有人猜測，這背後可能有OpenAI的Q*計畫加持。MultiOn公司不僅給Agent Q開設了獨立的X帳號，而且帳號的背景圖片和基本資訊都與草莓有關，這無疑增加了人們對其背後技術的好奇。

最被看好的AI套用方向

近年來，大型語言模型（LLM）在人工智慧領域取得了顯著的進步。像ChatGPT、Gemini、Opus和LLaMA-3這樣的前沿模型展現出強大的推理能力，在許多領域的表現接近甚至超越了人類平均水平。這些突破將LLM的套用範圍從傳統的聊天和基於文本的任務擴充套件到了更具動態性的智慧體角色，使其不僅可以生成文本，還可以在各種環境中自主地執行操作。

然而，一個重大的挑戰依然存在：LLM在互動式、多步驟的環境中仍然難以有效地泛化。Muli0n的研究人員致力於解決這一難題他們的目標是設計一種方法，使智慧體能夠利用自主經驗和有限的監督來進行改進。為此，他們引入了Agent Q--一種將推理、搜尋自我批評和強化學習等多個關鍵概念相結合的新方法。

Agent Q的設計靈感來自於Suton提出的「痛苦教訓"，即那些能夠隨著計算量的增加而不斷擴充套件的通用方法的力量，這表明了將搜尋和學習結合起來的巨大好處。

在Open Table上進行的真實世界預訂實驗中，Agent Q大幅提高了LLaMa-3模型的零樣本效能，將其成功率從18.6%提升至81.7%提升振幅高達340%，並且僅需一天的自主數據收集。如果啟用線上搜尋功能，成功率更可進一步提升至 95.4%。這些結果突出了Agent Q方法在提升自主Web智慧體效率和效能方面的顯著效果。

Agent Q作為AI智慧體的一種，具有自主性、反應性、社會性、認知性、思辨性等特征的智慧「代理」，能夠自主理解、規劃決策、執行復雜任務等。它的核心在於自主性的增強，即可以獨立完成某項工作，不必人類進行過多的稽核校正，可以將成本降到最低。

OpenAI對AI智慧體的定義著重於其作為一個以大型語言模型為核心的系統，這個系統具備自主理解感知、規劃、記憶和使用工具的能力，使其能夠自動完成復雜的任務。

AI智慧體的基本框架包含四個主要模組：記憶、規劃、工具使用和行動。

記憶模組負責儲存資訊，既包括過去的互動和學習到的知識，也包括臨時的任務資訊。有效的記憶機制對智慧體來說至關重要，使其能夠在遇到新的或復雜情況時，呼叫過往的經驗和知識。記憶又分為短期和長期兩種，短期記憶用於上下文學習，而長期記憶則透過外部資料庫和快速檢索，為智慧體提供長時間保留和回憶資訊的能力。

規劃模組包括事前規劃和事後反思兩個階段。事前規劃涉及對未來行動的預測和決策，幫助智慧體高效地規劃步驟和行動以達到目標。事後反思則讓智慧體能夠檢查和改進計劃中的不足，從錯誤中學習並加入長期記憶，以此更新對世界的認知。

工具使用模組使智慧體能夠利用外部資源或工具執行任務。例如，它們可以呼叫外部API來獲取模型數據中缺失的資訊，或者使用特定軟體分析大量數據。這種工具使用方式提升了智慧體的效率和任務完成能力。

行動模組是智慧體實際執行決策和響應的部份。智慧體擁有一系列行動策略，根據不同任務選擇相應的行動，如記憶檢索、推理、學習和編程等。

當前，AI智慧體的技術難點主要包括以下幾個方面。

第一，理解復雜任務。AI智慧體需要能夠理解並執行復雜的、多步驟的任務，這要求模型具備強大的理解能力和規劃能力。

第二，記憶和知識管理。為了在執行任務時保持連貫性和上下文理解，AI智慧體需要具備長期記憶的能力，這涉及到有效的資訊儲存和檢索機制。

第三，工具使用和整合。AI智慧體需要能夠與外部環境進行互動，需要能夠使用和整合各種工具和服務，包括呼叫API、使用軟體應用程式等。這要求模型具備一定的外部工具使用能力，以完成任務，同時需要註意不同工具之間的互操作性和整合問題。

第四，多模態理解。AI智慧體在實際套用中可能需要處理和理解多種型別的輸入，如文本、影像、音訊等，這要求模型具備多模態理解的能力，並能夠與使用者進行自然的互動。

第五，安全性和可靠性。在執行任務時，AI智慧體需要確保操作的安全性和可靠性，避免產生不可預測的錯誤或風險。

第六，倫理和私密問題。AI智慧體的開發和使用涉及到安全和倫理問題，如私密保護、偏見和公平性等，需要確保AI智慧體的行為符合道德和社會規範。

大廠集體攻堅「智慧體」

隨著AI浪潮風起雲湧，國內互聯網大廠們都一一成為急先鋒，不斷在AI領域加碼，不論是阿裏巴巴騰訊，還是字節跳動拼多多百度，都將AI視為核心戰略。從最近一段時間開始，組建AI市集，創造各類智慧體套用，搭建AI生態，成了大廠們的熱門潮流。

智慧體套用是基於內嵌於終端的本地大模型打造，精準理解使用者意圖，並將意圖轉換為相應的任務組合，分解任務並辨識任務完成的路徑，透過查詢本地知識庫、呼叫裝置API以及合適的模型或套用來執行相應的任務，並將相應的結果返回給智慧體，智慧體完成整合後反饋給使用者。

簡單來說，智慧體將成為AI OS系統的最小工作單元，在PC、手機、自動駕駛領域預計有廣泛的套用場景。而承載智慧體套用的最好容器，就是AI市集。

2024年2月，字節跳動正式推出「Coze扣子」AI Bot開發平台。據其官方描述稱：無論你是否有編程基礎，都可以在扣子上快速搭建基於大模型的各類Bot，並將Bot釋出到各個社交平台、通訊軟體或部署到網站等其他渠道。

2024年4月，百度旗下的「靈境矩陣」正式更名為「文心智慧體平台」，基於文心大模型，支持廣大開發者根據自身行業領域、套用場景，選取多樣化的開發方式，打造大模型時代的原生套用。

2024年5月，騰訊基於「混元大模型」上線一站式AI智慧體創作與分發平台「騰訊元器」。使用者不僅可以在平台上建立專屬AI智慧體，使用騰訊官方的外掛程式和知識庫，還能將這些智慧體一鍵分發到QQ、微信客服、騰訊雲等渠道上。

除此之外，近日又傳出微信的雲開發團隊正在打造一款名為「雲開發AI智慧體」的套用平台，這是一個多平台AI智慧體開發框架，用於企業和小程式提供專屬的智慧體平台。

螞蟻集團也在開發一款AI套用搭建工具「芝士餅」。使用者透過該平台也能夠在無程式碼的情況下搭建AI套用，支持創作成支付寶小程式等多重產品形態。

如今，國內AI市集、智慧體套用平台已經成為「風暴眼」。2023年，大廠們的註意力放在搭建AI大模型；2024年，大廠們又轉向搭建智慧體套用平台。

目前為止，AI智慧體並沒有誕生一個「超級巨頭」，所有玩家都是起步階段，使用者教育還在初級層次。這場AI世界分發權的鬥爭，註定要持續很久。

AI智慧體技術演化路徑

AI智慧體正成為人工智慧成為基礎設施的關鍵驅動力。從技術發展角度看，技術最終會演變成基礎設施，就像水、電一樣變得無處不在而又必不可少，雲端運算就是一個類似例子。

IDC【AIGC套用層十大趨勢】報告調研表明，所有企業都認為AI智慧體是AIGC發展的確定性方向，50%的企業已經在某項工作中進行了AI智慧體的試點，另有34%的企業正在制定AI智慧體的套用計劃。

【2024數位科技前沿套用趨勢】中，「多模態智慧體加速AGI行程」被列為第二大趨勢。報告認為，通用人工智慧漸行漸近，大模型走向多模態，AI智慧體有望成為下一代平台；端側大模型加速部署，或將成為未來互動新入口。AI在數學推理、新藥研發、材料發現、蛋白質合成等領域大顯身手，「AI科學家」有望加速問世。

綜合多家研究報告來看，AI智慧體的發展或將出現幾條最具前景的路徑。

首先，是多智慧體系統（Multi-Agent Systems，MAS），其是由多個互相協作或競爭的自治智慧體組成的系統，旨在透過集體行為解決復雜問題。智慧體的主要任務通常包括感知環境、處理資訊、做出決策，並與其他智慧體互動以實作共同的目標。

該系統由多個自治的、互動的、異構的智慧體組成，每個智慧體都有自己的目標、行為、信念和偏好，同時也受到環境的影響和約束。其目標是實作智慧體之間的協作和競爭的平衡，使得每個智慧體都能達到自己的目標，同時也能促進整個系統的效能和效益。

難點是如何處理智慧體之間的復雜的互動和協調，如何解決智慧體之間的沖突和矛盾，如何評估智慧體的表現和進步，如何接受人類的反饋和指導，如何遵守人類的倫理和法律等。

智慧體可以以協作或競爭的方式相互互動。這使他們能夠透過團隊合作或對抗性互動來實作進步。在系統中，智慧體可以共同完成復雜的任務或相互競爭以提高其效能。

比如用於模擬和最佳化交通、能源、物流等領域的復雜系統，也可以用於設計和實作智慧家居、智慧城市、智慧工廠等套用場景。

第二，是自主智慧體（Autonomous Agent），其是指能夠在環境中感知、學習和執行動作的智慧實體。這種實體具有自主性，即它能夠獨立地做出決策和行動，而無需人為幹預。

自主智慧體具備自主決策和行動能力，能夠在給定的環境中自主地感知、學習和做出決策，以實作特定的目標。自主智慧體能夠根據環境的變化和反饋資訊，不斷地適應和改進自己的行為，從而實作更好的效能和效果。

它通常被設計成具備對環境的感知能力，能夠根據感知到的資訊做出理性的決策，並執行相應的動作以達到特定的目標。在實作自主性的過程中，機器學習和深度學習等技術發揮了關鍵作用。

自主智慧體的設計和實作涉及多個方面，包括但不限於機器學習、自然語言處理、電腦視覺等AI技術的綜合運用。

它們被設計用於執行各種不同的任務，如管理社交媒體帳戶、投資市場、制作兒童讀物等，甚至在一些情況下，它們可以幫助人們釋放時間去做更有創造性的事情。其研究價值主要體現在強化學習和機器人學中，例如DeepMind的AlphaGo和OpenAI的 OpenAI Five（一個會打團戰的Dota2遊戲AI）都是比較典型的基於強化學習智慧體運用。

LLM爆發以後，近一年來關於自主智慧體的研究和話題開始呈現井噴之勢，例如AutoGPT、BabyAGI、Generative Agents、MetaGPT等計畫在Github上已狂攬上萬star，成為炙手可熱的明星計畫。

第三，是超級個體。基於智慧體的人機協同模式，每個普通個體都有可能成為超級個體。超級個體是一個由許多有機體組成的有機體系，通常是一個真社會性動物的社會單位，其中社會分工被高度專業化，且個體無法獨自長時間地生存。

在現代社會中，超級個體也可以指精通一項或多項專業技能，並完成商業變現，最終對傳統僱用關系實作脫離依附的復合型人才。

AI智慧體可以賦予超級個體更多的機遇，使個人能夠在更廣闊的領域展示才華，透過AI賦能進行創造性工作，足以打造一個人的團隊與公司。

超級個體是擁有自己的AI團隊與自動化任務工作流，基於智慧體與其他超級個體建立更為智慧化與自動化的協作關系。現在業內不乏一人公司、超級個體的積極探索。

Github平台上，已經出現一些基於智慧體的自動化團隊計畫。比如GPTeam利用大模型建立多個被賦予角色和功能的智慧體，多智慧體協作以實作預定目標。Dev-GPT是一個自動化開發和運維的多智慧體協作團隊，包含了產品經理智慧體、開發人員智慧體和運維人員智慧體等角色分工，可以滿足和支撐一個初創行銷公司的正常營運。NexusGPT整合了開源資料庫中的各種AI原生數據，並擁有800多個具有特定技能的AI智慧體。在該平台上，你可以找到不同領域的專家，例如設計師、咨詢顧問、銷售代表等。雇主可以隨時在這個平台上選擇一個AI智慧體幫助他們完成各種任務。

AI智慧體作為人工智慧領域的一項革命性技術，預示著人類與機器之間協作方式的根本變革。隨著AI智慧體技術的進一步發展和成熟，我們預期會看到更智慧、更高效、更個人化的智慧助理，將極大地提升人類的生產力和生活品質。然而，技術進步也伴隨著安全、倫理和社會挑戰，需要我們在享受技術帶來的便利的同時，也要不斷審視和解決這些挑戰，從而為技術的未來發展找到一條切實可行的路徑。