火爆的AI Agent，到底是什麽？

2024-05-06科技

文：王智遠 | ID:Z201440

查了一下：

AI Agent熱潮，準確來說，從2023年3月開始。

那時候，一個叫AutoGPT框架計畫釋出，計畫利用大型語言模型，能自動把一個大任務拆分成小任務，並使用工具完成它們。

這種技術，將大語言模型處理語言、創造內容，和邏輯推理的能力擴充套件到了套用場景裏，還加了感知和行動技術，所以，能從頭到尾解決一個簡單的問題。

緊接著，一年時間內，計畫引起國外大公司、國內創業者、投資者們極大關註，大家開始積極開發AI Agent的框架、平台或具體套用。

外加上去年11月，OpenAI又推出一系列的GPTs，然後，國內才有不少公司才開始根據各自能力布局套用層、平台層、開發層和營運層等方向，來增加下一波生態下的壁壘性。

因此，人們才認為它是下一個重要細分發展方向。

可是：任何行業都存在資訊差，我周圍有很多人，之前並沒有關註該賽道，爆發後才覺得有必要了解下，但現在市場上各種資訊泛濫，讓人眼花繚亂，就帶來不少困擾。

他們不太清楚Agent是什麽？為什麽很重要，未來發展怎樣？借此機會，分享一些資訊，希望幫你初步了解這個概念。

到底什麽是AI agent？它是怎麽工作的呢？

先來看一個詞：「agent」，中文意思是代理人。代理人，你可以理解成有人幫你去做某件事。

那麽，AI agent是什麽？ 簡單來說，一個由AI技術加持的代理人，它變得更聰明了，可以感知周圍的環境，並且能夠獨立地思考和行動。

你有沒有用過對話式的大模型（LLM），比如：文心一言、Kimi Chat、或者智譜AI？AI agent和對話式模型區別在於，你不用一直告訴它要做什麽，只要給它一個目標，就能想辦法自動幫你完成。

所以，大模型（LLM）要很多各種各樣的數據，數據幫助它，學習的和人一樣具備交流、學習、思考和推理的能力。

不過，它並不完美，時常出現一些奇怪的想法，或者受到環境影響； 這時，就能用基於大模型開發的AI agent進一步細化問題。

舉個容易理解的例子：

你用過小愛同學嗎？假如生病了，以前對它說：「我不舒服」，它只會告訴你去醫院看看，多註意防護。

如果更聰明的AI agent，做法會不一樣。它能檢測你的體溫和其他健康指標，結合網上的資訊，分析之後告訴你：你可能發燒了。」接下來，還能幫你自動寫好請假條。如果說：「幫我在釘釘上發給領導」，它立刻就能搞定。

要是家裏布洛芬不夠了，它甚至可以把藥加入購物車，你確認後付款，很快藥就能送到家。這就是AI agent的聰明之處。

所以，它的工作原理是什麽呢？主要有四部份：

感知

資訊處理

執行

輸出

感知是第一步。AI透過傳感器、網路攝影機、麥克風這些外部裝置來感知周圍的世界。比如你說：「我不舒服」，這句話就能透過麥克風被捕捉到。

資訊處理，像把一個通用的大模型和很多專業的知識庫結合起來。比如：健康數據和家裏的藥物存量，你告訴它這些資訊，它就能幫你保存並做出決策。

寫請假條、線上購買藥品，這些都是系統根據它的決策來完成的具體工作。完成之後，系統會告訴你結果。

一個完整的智慧體（Agent），好比人類和周圍環境互動的過程，它由兩部份組成：一部份是智慧體自己，另一部份是它所在的環境。

智慧體像生活在物理世界中的人類，而物理世界是它的外部環境，人類感知周圍的世界，理解環境中隱藏的資訊，再結合自己的記憶、對世界的了解來做計劃、做決定和采取行動一樣；行動又會影響環境，產生新的反饋。

人類根據反饋再次做出決策，從而形成一個不斷迴圈的過程。

你看，整個過程像不像馬克思主義的「實踐論」？ 有個目標後，從認識開始，實踐得出理論知識，再把知識套用回實踐中去。這就是，AI Agent神奇之處。

不過，由於大模型本身能力還在不斷開發中，智慧體形態、套用場景也就更晚一些， 所以，看似短短一年內，探索了多種實作智慧體的方式，但大部份還處在概念驗證、產品演示階段，常見問題也相對明顯。

包括：計畫文件不完整、復用效果不穩定、任務拆分過細，導致成本過高，以及推理能力不夠，更主要的原因，還有跨平台能力如何解決等等。

我身邊愛寫作、閱讀的朋友們都有一個共同的習慣：

他們會收藏一些有用的資訊。通常，資訊被臨時記錄在備忘錄中。隨著時間往後推，記錄東西多了，管理起來就比較麻煩。

前段時間，我琢磨能不能建立一個完整的流程，自動化處理，折騰半天，雖然搭建成功流程自動化，但實際使用起來的效果並不理想。

所以，許多平台廠商、研究機構、創業公司推出各種單一智慧體、多組合智慧體、以及機器人自動化（RPA）等框架計畫，但從實際調研和行業反饋看，還要叠代。

不過，這個框架的總體思路，可以用一個公式概括：

Agent = LLM（大型語言模型）+ Planning（規劃）+ Feedback（反饋）+ Tool use（工具使用）。

當我們做規劃時，不僅只看當前情況，還會考慮記憶、過去的經驗，以前的反思和總結，還有對世界的了解也加入進來。

而現在以ChatGPT和其他為首的國內大模型，更像一個固定不變的知識庫，它不能直接和環境互動，雖然它們可以進行邏輯推理、基本規劃，但不能感知周邊的一切，來進行自主反饋。

在我看來，智慧體能透過各種方式獲取反饋。

比如：

如果我們把和對話的ChatGPT視為一個智慧體，那麽，透過文字域輸入的回復就是給它的反饋，這種互動後，它能調整自己的回答，而不是一次次再教育。

還有，更進一步地，智慧體可以使用外部工具來增強它的功能，解決更復雜的問題。

例如：

它可以用天氣API來獲取天氣預報，如果沒有工具，智慧體還能學習適應環境變化的策略，來應對挑戰。

所以，一個完整AI智慧體應該能夠主動和環境互動。 而大型語言模型是它潛在能力的核心，未來發展方向，是建立一個從頭到尾的系統，這將依靠它有效地使用周圍的工具，來實作更廣泛的套用。

那麽，它為什麽很重要？我為什麽要深入理解呢？

首先，AI智慧體將會引領軟體行業進入一個新的時代，我們可以叫它「3D打印時代」。

什麽意思呢？

3D打印技術普及時，人們很方便地3可以打印出各種「實體物品」。 在所謂的「3D打印時代」，開發、客製軟體將變得跟打印檔一樣簡單、快速。公司、個人想要什麽？都根據自己的需求，很快找到解決方案。

有一個科學家，名叫Andrej Karpathy，他在特斯拉負責開發、最佳化自動駕駛技術。他在推特上說過，我們可以利用大數據、強大的計算能力來解決過去需要很多人力和時間的復雜問題。

這也是為什麽那麽多人對AutoGPT感興趣的原因。

其次，AI智慧體能減少軟體的生產成本。

你學過編程沒？以前編程，要寫大量臨時檔、測試方案，還要長期保存下來，以便不時之需；現在的編程，完全可以自動化制作，成本幾乎為零；這意味著，原來需要上千萬人才能完成的軟體任務，現在少量的人就可以搞定。

還有一點是，智慧體靈活滿足各種需求。

以前，我在幾家C輪公司工作過，技術人員占了一半，因為使用者很多、開發的東西也特別多。不僅要做商城，還要做CRM系統，只有用很多人力才能提高效率。

現在情況不同，很多基礎的需求直接交給智慧體來處理。這就像，我們從大批次生產，轉變成了小批次快速響應的模式。

如果把大語言模型看作人類思考的「系統1」，即負責快速、直覺的思考，而AI智慧體則類似於人類的「系統2」，負責慢速、分析性的深入思考。

電腦專家，Andrej Karpathy曾提到：大模型可以快速產生反饋，但也容易產生誤判。AI智慧體目標是建立一個個小框架，讓LLM循序漸進的思考，反而更能做出可靠的決策。

我以前在網上搜尋學術文章時，要分兩步篩選資訊：

首先，根據研究領域進行初步篩選；然後，根據第一次搜尋結果，進一步篩選出與我期望最相似的文章。這個過程通常要多次查詢和調整，耗時又麻煩。

後來，情況大有改觀。

我用RPA後，它按照要求自動篩選，並在第一輪結果後精準尋找，所以，這就像APP的推薦系統，你可以根據需要，客製自己的智慧體。

所以，基於大模型的Agent，改變了獲取資訊的方式，未來會有更多人有自己的Agent，幫它當合作夥伴，你可以想想，如果有個小助手，你會讓它做什麽？

那麽，AI Agent有什麽不同型別呢？

因為Agent技術還不是完全成熟，所以，Agent平台也在初期階段，現在一些比較固定的工作流程，或有詳細標準SOP的程式，都在封閉環境下進行。

即便一些比較受歡迎的平台，它們在API生態系，工作流程再組合上，還是不夠完善。我盤了一下，AI Agen平台大致有三類：

一類，面對公眾和非開發人員，基於知識庫和資料庫的簡單聊天機器人（Chatbot）； 如「類GPTs」，它提供標準界面、流程。國內字節的扣子（Coze）、阿裏的AI助理市場。

另一類，面向開發者的綜合開發平台： 這類平台幫助開發者使用各種API、第三方庫和程式碼嵌入，進行Agent的流程調優。

例如：

Coze海外版、百度靈境矩陣全程式碼版，阿裏、亞馬遜等提供模型托管，支持開發者開發套用。它們可以能解決復雜問題、有多個工作流程安排的復雜場景在裏面。

第三類是企業級開發平台：專門給企業工作流程制作的智慧化。 比如：TARS-RPA-Agent、CubeAgent和Torq等。瀾碼科技的AskXbot平台，以及360的「大模型+企業知識庫+Agent」的解決方案。

基於該框架下又能進行行業結構，套用場景再次劃分。

因為大家發展速度真的很快，所以，從實際情況來看，首先需要做的是： 第一步，豐富通用和特定場景的工作流程。 這意味著，要建立一些標準的流程，這樣不同的情況下都能用。

第二步，深入地學習和積累專業知識。這樣，第三步，平台能更好地重復使用已有的工作流程，也能更靈活地結合不同的工具。

同時，還要探索適合的商業模式，這樣才能滿足AI時代的需求。簡單說，就是要搞清楚怎麽透過AI Agent賺到錢，同時確保AI平台能不斷進步，更好地服務大家，很重要。

更直白一點說：

產品行銷圈，有一個很重要概念叫做PMF（Product-Market Fit，產品市場匹配度）。如果一個產品找到它的PMF，就找到了自己的市場立足點，開始有了使用者黏性。

在AI大模型產品領域裏，大模型要找到自己的TPF（Technology Product Fit，技術產品匹配）。

技術發展比較快時，AI從業者，要從技術、產品和市場三個角度全面考慮，尋找一個中間值，三者，完美匹配的時，才是AI Agent解決具體需求，賺到前的高光時刻。

我們不能總說技術厲害，而忽略市場是否需要。

前段時間，跟一個老板溝通企業內部流程再造時，就提到該問題，他說：看似很多冗余工作，AI Agent可以解決，但是，AI Agent解決前，總要先有人得先用好他。

舉個例子：

服裝設計公司，面臨一個重大挑戰，批次生產服裝時，要設計和制作多個樣板，這個過程傳統上完全依賴人工；現在，AI智慧體可以介入這一過程，但到底能處理到哪一步呢？精確度足夠高嗎？這些都要進一步的探索、測試。

所以，國內Agent發展還未達到其真正潛力，大多只是些簡單的聊天機器人。 缺少反思、規劃、環境感知能力，而這些能力，恰巧構成高級AI Agent的核心要素。

總結而言

AI Agent，進一步叠代工作流。

據我所知，目前市面有很多agent搭建工具，如果你想進一步了解這個賽道，親自試試，是最快的方法。