當前位置: 華文世界 > 科技

火爆的AI Agent,到底是什麽?

2024-05-06科技

文:王智遠 | ID:Z201440

查了一下:

AI Agent熱潮,準確來說,從2023年3月開始。

那時候,一個叫AutoGPT框架計畫釋出,計畫利用大型語言模型,能自動把一個大任務拆分成小任務,並使用工具完成它們。

這種技術,將大語言模型處理語言、創造內容,和邏輯推理的能力擴充套件到了套用場景裏,還加了感知和行動技術,所以,能從頭到尾解決一個簡單的問題。

緊接著,一年時間內,計畫引起國外大公司、國內創業者、投資者們極大關註,大家開始積極開發AI Agent的框架、平台或具體套用。

外加上去年11月,OpenAI又推出一系列的GPTs,然後,國內才有不少公司才開始根據各自能力布局套用層、平台層、開發層和營運層等方向,來增加下一波生態下的壁壘性。

因此,人們才認為它是下一個重要細分發展方向。

可是:任何行業都存在資訊差,我周圍有很多人,之前並沒有關註該賽道,爆發後才覺得有必要了解下,但現在市場上各種資訊泛濫,讓人眼花繚亂,就帶來不少困擾。

他們不太清楚Agent是什麽?為什麽很重要,未來發展怎樣?借此機會,分享一些資訊,希望幫你初步了解這個概念。

01

到底什麽是AI agent?它是怎麽工作的呢?

先來看一個詞:「agent」,中文意思是代理人。代理人,你可以理解成有人幫你去做某件事。

那麽,AI agent是什麽? 簡單來說,一個由AI技術加持的代理人,它變得更聰明了,可以感知周圍的環境,並且能夠獨立地思考和行動。

你有沒有用過對話式的大模型(LLM),比如:文心一言、Kimi Chat、或者智譜AI?AI agent和對話式模型區別在於,你不用一直告訴它要做什麽,只要給它一個目標,就能想辦法自動幫你完成。

所以,大模型(LLM)要很多各種各樣的數據,數據幫助它,學習的和人一樣具備交流、學習、思考和推理的能力。

不過,它並不完美,時常出現一些奇怪的想法,或者受到環境影響; 這時,就能用基於大模型開發的AI agent進一步細化問題。

舉個容易理解的例子:

你用過小愛同學嗎?假如生病了,以前對它說:「我不舒服」,它只會告訴你去醫院看看,多註意防護。

如果更聰明的AI agent,做法會不一樣。它能檢測你的體溫和其他健康指標,結合網上的資訊,分析之後告訴你:你可能發燒了。」接下來,還能幫你自動寫好請假條。如果說:「幫我在釘釘上發給領導」,它立刻就能搞定。

要是家裏布洛芬不夠了,它甚至可以把藥加入購物車,你確認後付款,很快藥就能送到家。這就是AI agent的聰明之處。

所以,它的工作原理是什麽呢?主要有四部份:

  • 感知

  • 資訊處理

  • 執行

  • 輸出

  • 感知是第一步。AI透過傳感器、網路攝影機、麥克風這些外部裝置來感知周圍的世界。比如你說:「我不舒服」,這句話就能透過麥克風被捕捉到。

    資訊處理,像把一個通用的大模型和很多專業的知識庫結合起來。比如:健康數據和家裏的藥物存量,你告訴它這些資訊,它就能幫你保存並做出決策。

    寫請假條、線上購買藥品,這些都是系統根據它的決策來完成的具體工作。完成之後,系統會告訴你結果。

    一個完整的智慧體(Agent),好比人類和周圍環境互動的過程,它由兩部份組成:一部份是智慧體自己,另一部份是它所在的環境。

    智慧體像生活在物理世界中的人類,而物理世界是它的外部環境,人類感知周圍的世界,理解環境中隱藏的資訊,再結合自己的記憶、對世界的了解來做計劃、做決定和采取行動一樣;行動又會影響環境,產生新的反饋。

    人類根據反饋再次做出決策,從而形成一個不斷迴圈的過程。

    你看,整個過程像不像馬克思主義的「實踐論」? 有個目標後,從認識開始,實踐得出理論知識,再把知識套用回實踐中去。這就是,AI Agent神奇之處。

    02

    不過,由於大模型本身能力還在不斷開發中,智慧體形態、套用場景也就更晚一些, 所以,看似短短一年內,探索了多種實作智慧體的方式,但大部份還處在概念驗證、產品演示階段,常見問題也相對明顯。

    包括:計畫文件不完整、復用效果不穩定、任務拆分過細,導致成本過高,以及推理能力不夠,更主要的原因,還有跨平台能力如何解決等等。

    我身邊愛寫作、閱讀的朋友們都有一個共同的習慣:

    他們會收藏一些有用的資訊。通常,資訊被臨時記錄在備忘錄中。隨著時間往後推,記錄東西多了,管理起來就比較麻煩。

    前段時間,我琢磨能不能建立一個完整的流程,自動化處理,折騰半天,雖然搭建成功流程自動化,但實際使用起來的效果並不理想。

    所以,許多平台廠商、研究機構、創業公司推出各種單一智慧體、多組合智慧體、以及機器人自動化(RPA)等框架計畫,但從實際調研和行業反饋看,還要叠代。

    不過,這個框架的總體思路,可以用一個公式概括:

    Agent = LLM(大型語言模型)+ Planning(規劃)+ Feedback(反饋)+ Tool use(工具使用)。

    當我們做規劃時,不僅只看當前情況,還會考慮記憶、過去的經驗,以前的反思和總結,還有對世界的了解也加入進來。

    而現在以ChatGPT和其他為首的國內大模型,更像一個固定不變的知識庫,它不能直接和環境互動,雖然它們可以進行邏輯推理、基本規劃,但不能感知周邊的一切,來進行自主反饋。

    在我看來,智慧體能透過各種方式獲取反饋。

    比如:

    如果我們把和對話的ChatGPT視為一個智慧體,那麽,透過文字域輸入的回復就是給它的反饋,這種互動後,它能調整自己的回答,而不是一次次再教育。

    還有,更進一步地,智慧體可以使用外部工具來增強它的功能,解決更復雜的問題。

    例如:

    它可以用天氣API來獲取天氣預報,如果沒有工具,智慧體還能學習適應環境變化的策略,來應對挑戰。

    所以,一個完整AI智慧體應該能夠主動和環境互動。 而大型語言模型是它潛在能力的核心,未來發展方向,是建立一個從頭到尾的系統,這將依靠它有效地使用周圍的工具,來實作更廣泛的套用。

    03

    那麽,它為什麽很重要?我為什麽要深入理解呢?

    首先,AI智慧體將會引領軟體行業進入一個新的時代,我們可以叫它「3D打印時代」。

    什麽意思呢?

    3D打印技術普及時,人們很方便地3可以打印出各種「實體物品」。 在所謂的「3D打印時代」,開發、客製軟體將變得跟打印檔一樣簡單、快速。公司、個人想要什麽?都根據自己的需求,很快找到解決方案。

    有一個科學家,名叫Andrej Karpathy,他在特斯拉負責開發、最佳化自動駕駛技術。他在推特上說過,我們可以利用大數據、強大的計算能力來解決過去需要很多人力和時間的復雜問題。

    這也是為什麽那麽多人對AutoGPT感興趣的原因。

    其次,AI智慧體能減少軟體的生產成本。

    你學過編程沒?以前編程,要寫大量臨時檔、測試方案,還要長期保存下來,以便不時之需;現在的編程,完全可以自動化制作,成本幾乎為零;這意味著,原來需要上千萬人才能完成的軟體任務,現在少量的人就可以搞定。

    還有一點是,智慧體靈活滿足各種需求。

    以前,我在幾家C輪公司工作過,技術人員占了一半,因為使用者很多、開發的東西也特別多。不僅要做商城,還要做CRM系統,只有用很多人力才能提高效率。

    現在情況不同,很多基礎的需求直接交給智慧體來處理。這就像,我們從大批次生產,轉變成了小批次快速響應的模式。

    如果把大語言模型看作人類思考的「系統1」,即負責快速、直覺的思考,而AI智慧體則類似於人類的「系統2」,負責慢速、分析性的深入思考。

    電腦專家,Andrej Karpathy曾提到:大模型可以快速產生反饋,但也容易產生誤判。AI智慧體目標是建立一個個小框架,讓LLM循序漸進的思考,反而更能做出可靠的決策。

    我以前在網上搜尋學術文章時,要分兩步篩選資訊:

    首先,根據研究領域進行初步篩選;然後,根據第一次搜尋結果,進一步篩選出與我期望最相似的文章。這個過程通常要多次查詢和調整,耗時又麻煩。

    後來,情況大有改觀。

    我用RPA後,它按照要求自動篩選,並在第一輪結果後精準尋找,所以,這就像APP的推薦系統,你可以根據需要,客製自己的智慧體。

    所以,基於大模型的Agent,改變了獲取資訊的方式,未來會有更多人有自己的Agent,幫它當合作夥伴,你可以想想,如果有個小助手,你會讓它做什麽?

    04

    那麽,AI Agent有什麽不同型別呢?

    因為Agent技術還不是完全成熟,所以,Agent平台也在初期階段,現在一些比較固定的工作流程,或有詳細標準SOP的程式,都在封閉環境下進行。

    即便一些比較受歡迎的平台,它們在API生態系,工作流程再組合上,還是不夠完善。我盤了一下,AI Agen平台大致有三類:

    一類,面對公眾和非開發人員,基於知識庫和資料庫的簡單聊天機器人(Chatbot); 如「類GPTs」,它提供標準界面、流程。國內字節的扣子(Coze)、阿裏的AI助理市場。

    另一類,面向開發者的綜合開發平台: 這類平台幫助開發者使用各種API、第三方庫和程式碼嵌入,進行Agent的流程調優。

    例如:

    Coze海外版、百度靈境矩陣全程式碼版,阿裏、亞馬遜等提供模型托管,支持開發者開發套用。它們可以能解決復雜問題、有多個工作流程安排的復雜場景在裏面。

    第三類是企業級開發平台:專門給企業工作流程制作的智慧化。 比如:TARS-RPA-Agent、CubeAgent和Torq等。瀾碼科技的AskXbot平台,以及360的「大模型+企業知識庫+Agent」的解決方案。

    基於該框架下又能進行行業結構,套用場景再次劃分。

    因為大家發展速度真的很快,所以,從實際情況來看,首先需要做的是: 第一步,豐富通用和特定場景的工作流程。 這意味著,要建立一些標準的流程,這樣不同的情況下都能用。

    第二步,深入地學習和積累專業知識。這樣,第三步,平台能更好地重復使用已有的工作流程,也能更靈活地結合不同的工具。

    同時,還要探索適合的商業模式,這樣才能滿足AI時代的需求。簡單說,就是要搞清楚怎麽透過AI Agent賺到錢,同時確保AI平台能不斷進步,更好地服務大家,很重要。

    更直白一點說:

    產品行銷圈,有一個很重要概念叫做PMF(Product-Market Fit,產品市場匹配度)。如果一個產品找到它的PMF,就找到了自己的市場立足點,開始有了使用者黏性。

    在AI大模型產品領域裏,大模型要找到自己的TPF(Technology Product Fit,技術產品匹配)。

    技術發展比較快時,AI從業者,要從技術、產品和市場三個角度全面考慮,尋找一個中間值,三者,完美匹配的時,才是AI Agent解決具體需求,賺到前的高光時刻。

    我們不能總說技術厲害,而忽略市場是否需要。

    前段時間,跟一個老板溝通企業內部流程再造時,就提到該問題,他說:看似很多冗余工作,AI Agent可以解決,但是,AI Agent解決前,總要先有人得先用好他。

    舉個例子:

    服裝設計公司,面臨一個重大挑戰,批次生產服裝時,要設計和制作多個樣板,這個過程傳統上完全依賴人工;現在,AI智慧體可以介入這一過程,但到底能處理到哪一步呢?精確度足夠高嗎?這些都要進一步的探索、測試。

    所以,國內Agent發展還未達到其真正潛力,大多只是些簡單的聊天機器人。 缺少反思、規劃、環境感知能力,而這些能力,恰巧構成高級AI Agent的核心要素。

    總結而言

    AI Agent,進一步叠代工作流。

    據我所知,目前市面有很多agent搭建工具,如果你想進一步了解這個賽道,親自試試,是最快的方法。