吳恩達：現在做GPT-4智能體，或將提前達到GPT-5效果｜鈦媒體AGI - 科技

2024-03-31科技

美國史丹福大學教授吳恩達（Andrew Ng）

人工智能智能體（AI Agents）似乎將引領 AI 行業新的發展趨勢。

近日紅杉資本（Sequoia）在美國舉行的AI Ascent活動上，Sequoia 三位合夥人 Sonya Huang、Pat Grady 以及 Konstantine Buhler 匯集了 100 位領先的 AI 創始人和研究人員，一起探討了 AI 的機會、現狀以及影響等話題。

其中，AI 領域重要人物、史丹福大學電腦科學系和電氣工程系的客座教授、Landing.ai和Coursera聯合創始人、Google Brain建立者吳恩達（Andrew Ng）圍繞AI Agent話題進行了一場演講。

吳恩達表示，AI Agents 代表了人工智能的未來發展方向。輸入Prompt 讓大模型生成文章，就像讓一個人寫作，但不能用回退鍵（刪除修改）。AI Agents 的工作方式跟人類更相像。

根據吳恩達分享的數據，你使用 GPT-3.5 進行零樣本提示，它的正確率是48%。GPT-4 的表現要好得多，正確率是 67%。但是如果你在 GPT-3.5 的基礎上建立一個 AI 智能體的工作流，它甚至能比 GPT-4 做得更好。

換句話說，如果我們現在基於 GPT-4 做一個 AI 智能體的工作流，甚至可以提前到達 GPT-5 的水平。

具體來說，吳恩達認為，AI Agents 有四種設計模式：

一、反思（讓模型檢查和修正自己的輸出）；

二、工具（呼叫搜尋、程式碼執行等外部工具）；

三、規劃（拆解復雜任務，制定執行計劃）；

四、多 Agent 協作（讓模型扮演不同角色，透過協作完成任務）

吳恩達坦言，Agents工作流的出現，語言模型的能力有望在今年得到顯著提升。隨之而來的是，Token生成速度變得至關重要，甚至比大模型能力提升更重要，甚至還要讓模型花更多時間推理和叠代。（大模型要生成大量token來自己閱讀和推理，速度越快越好）

吳恩達在演講中對GPT-5、Claude-5、Gemini2充滿期待。

他認為，在Agentic方法加持下，未必要等到最新最強的模型才能體驗到互動式AI的威力。「AGI 仍然是一個遙遠的目標，但Agentic工作流無疑是通往AGI的重要一步。」

對於未來 AI 的發展，吳恩達提及，一方面，人類會慢慢適應和智能體協作解決任務的新模式，很多工不再像搜尋引擎那樣，你輸入問題馬上得到結果，而是異步的，你給 AI 提供一個任務，然後 AI 會去完成，完成後再通知你，類似於老板和員工的關系；另一方面，AI 智能體的能力也會越來越強，越來越快。

值得註意的是，除了吳恩達之外，此次紅杉資本AI Ascent活動中，還邀請了OpenAI 創始成員、前特斯拉 AI 高級總監，AI 大神 Andrej Karpathy；Mistral AI創始人Arthur Mensch；Anthropic 聯合創始人兼總裁 Daniela Amodei 等人多位 AI 領域的大咖人物。

其中，Andrej Karpathy的對話內容引起多方關註。他不僅剖析了 OpenAI 背後故事和 AGI 技術發展前景，而且還談及特斯拉CEO馬斯克（Elon Musk）的人格魅力等。

Andrej表示，幾年前，AGI 看起來還很遙遠，但現在它似乎近在咫尺。目前的發展方向是構建類似「大型語言模型作業系統 (LLMOS)」的平台，它可以連線文本、影像、音訊等各種模態，並與現有的軟件基礎設施相結合。

Andrej透露，OpenAI 正在構建 LLMOS 平台，並可能會提供一些預設應用程式，但這並不意味著其他公司沒有機會。Karpathy 認為，就像早期的 iPhone 套用一樣，現在人們正在探索 LLM 的功能和局限性，未來將出現一個充滿活力的套用生態系，針對不同領域進行微調。

「我認為在演算法方面，我想了很多的一個問題是擴散模型和自回歸模型之間的明顯區別。它們都是表示概率分布的方法。事實證明，不同的模態顯然適合其中之一。我認為可能有一些空間來統一它們，或者以某種方式將它們聯系起來。」Andrej表示。

Andrej指出，僅僅擁有資金和計算資源並不足以訓練出這些模型，還需要基礎設施、演算法和數據方面的專業知識。他還強調了完全開源模型的重要性，因為它們允許更深入的客製和改進。

不過，目前，大模型依然面臨彌合擴散模型和其他生成模型之間的差距，提高模型執行的能量效率，改進模型的精度和稀疏性等問題，尤其是馮·諾依曼架構具有局限性的。

Andrej坦言，他從馬斯克（Elon Musk）的合作中學到了很多東西，包括，保持團隊精簡、強大和技術性；營造充滿活力和高強度的文化氛圍；領導者與團隊保持緊密聯系；以及積極消除瓶頸並快速做出決策。

「我想說，馬斯克管理公司的方式非常獨特。我覺得人們並沒有真正意識到它有多特別。即便是聽別人講，你也很難完全理解。我覺得這很難用語言描述。我甚至都不知道從何說起。但這確實是一種非常獨特、與眾不同的方式。

用我的話說，他在管理全球最大的創業公司。我覺得我現在也很難描述清楚，這可能需要更長時間來思考和總結。不過首先，他喜歡由實力強大且技術含量高的小團隊來組成公司。

在其他公司，發展的過程中團隊規模往往會變大。而馬斯克則總是反對團隊過度擴張。為了招募員工，我不得不做很多努力。我必須懇求他允許我招人。

另外，大公司通常很難擺脫績效不佳的員工。而馬斯克則更願意主動裁人。事實上，為了留住一些員工，我不得不據理力爭，因為他總是預設要裁掉他們。

所以第一點就是，保持一支實力強勁、技術過硬的小團隊。絕對不要有那種非技術型的中層管理。這是最重要的一點；第二點則是他如何營造工作氛圍，以及當他走進辦公室時給人的感覺。

他希望工作環境充滿活力。人們四處走動，思考問題，專註於令人興奮的事物。他們或是在白板上寫寫畫畫，或是在電腦前敲程式碼。他不喜歡一潭死水，不喜歡辦公室裏沒有生機。

他也不喜歡冗長的會議，總是鼓勵人們在會議毫無意義時果斷離場。你真的能看到，如果你對會議毫無貢獻也沒有收獲，那就可以直接走人，他非常支持這一點。我想這在其他公司是很難見到的。

所以我認為營造積極向上的工作氛圍是他灌輸的第二個重要理念。也許這其中還包括，當公司變大後，往往會過度呵護員工。而在他的公司不會如此。公司的文化就是你要拿出百分之百的專業能力，工作節奏和強度都很高。

我想最後一點或許是最獨特、最有趣也最不尋常的，就是他與團隊如此緊密地聯系在一起。

通常一個公司的CEO是一個遙不可及的人，管理著5層下屬，只和副總裁溝通，副總裁再和他們的下屬主管溝通，主管再和經理層溝通，你只能和直屬上司對話。但馬斯克經營公司的方式完全不同。他會親自來到辦公室，直接與工程師交談。

我們開會時，會議室裏經常是50個人和馬斯克面對面，他直接跟工程師對話。他不想只是和副總裁、主管們說話。

通常一個CEO會把99%的時間花在和副總裁溝通上，而他可能有50%的時間在和工程師交流。所以如果團隊規模小且高效，那麽工程師和程式碼就是最可信的資訊源。他們掌握第一手的真相。馬斯克要直接和工程師交流，以了解實際情況，討論如何改進。

所以我想說，他與團隊聯系緊密，而不是遙不可及，這一點非常獨特。

此外，他在公司內部行使權力的方式也不同尋常。比如如果他與工程師交談，了解到一些阻礙專案進展的問題。比如工程師說，「我沒有足夠的GPU來運行程式」，他會記在心裏。如果他兩次聽到類似的抱怨，他就會說：「好，這是個問題。那現在的時間表是什麽？什麽時候能解決？」

如果得不到滿意的答復，他會說，「我要和GPU集群的負責人談談」，然後有人就會打電話給那個負責人，他會直截了當地說：「現在就把集群容量翻一倍。從明天開始每天向我匯報進展，直到集群規模擴大一倍。」

對方可能會推脫說還要經過采購流程，需要6個月時間之類的。這時馬斯克就會皺起眉頭，說：「好，我要和黃仁勛談談。」然後他就會直接鏟除專案障礙。

所以我認為大家並沒有真正意識到他是如何深度參與各項工作，掃清障礙，施加影響力的。

老實說，離開這樣的環境去一家普通公司，你真的會想念這些獨特的地方。」Andrej表示。

Andrej還鼓勵創業者，認為CEO首先專註於構建效能最佳的模型，然後再考慮降低成本；其次，積極分享經驗和知識，促進生態系的健康發展；最後，創業者需要關註，如何幫助初創公司在與大科技公司的競爭中取得成功。

「通向AGI 的道路更像是一段旅程，而不是一個目的地，但我認為這種智能體工作流可能幫助我們在這個非常長的旅程上邁出一小步。」吳恩達在演講結尾表示。

以下是吳恩達的演講全文，由@baoyu.io進行轉譯整理，鈦媒體App編輯進行部份人工修正：

我期待與大家分享我在 AI 智能體方面的發現，我認為這是一個令人興奮的趨勢，所有涉及 AI 開發的人都應該關註。同時，我也對所有即將介紹的"未來趨勢"充滿期待。

所以，讓我們來談談 AI 智能體。

現在，我們大多數人使用大語言模型的方式就像這樣，透過一個無智能體的工作流程，我們輸入一段提示詞，然後生成一段答案。這有點像你讓一個人編寫一篇關於某個主題的文章，我說你只需要坐在鍵盤前，一氣呵成地把文章打出來，就像不允許使用退格鍵一樣。盡管這項任務非常困難，但大語言模型的優秀表現卻令人驚訝。

與此相對，一個有 AI 智能體的工作流可能是這樣的。讓 AI 或者大語言模型寫一篇文章的提綱。需要在網上尋找一些東西嗎？如果需要，那就去查。然後寫出初稿，並閱讀你自己寫的初稿，思考哪些部份需要修改。然後修改你的初稿，然後繼續前進。所以這個工作流是叠代的，你可能會讓大語言模型進行一些思考，然後修改文章，再進行一些思考，如此反復。很少有人意識到，這種方式的結果更好。這些 AI 智能體的工作流程的效果讓我自己都感到驚訝。

我要做一個案例研究。我的團隊分析了一些數據，用的是一個名為"人類評估基準"的編程基準，這是 OpenAI 幾年前釋出的。這個基準包含一些編程問題，比如給出一個非空的整數列表，求出所有奇數元素或者奇數位置上的元素之和。答案可能是這樣一段程式碼片段。現在，我們很多人會使用零樣本提示，意思是我們告訴 AI 寫程式碼，然後讓它一次就執行。誰會這樣編程？沒有人會這樣。我們只是寫下程式碼然後執行它。也許你會這樣做。我做不到。

所以事實上，如果你使用 GPT 3.5 進行零樣本提示，它的正確率是 48%。GPT-4 的表現要好得多，正確率是 67%。但是，如果你在 GPT 3.5 的基礎上建立一個 AI 智能體的工作流，它甚至能比 GPT-4 做得更好。如果你將這種工作流套用於 GPT-4，效果也非常好。你會註意到，帶有 AI 智能體工作流的 GPT 3.5 實際上優於 GPT-4。這意味著這將對我們構建應用程式的方式產生重大影響。

AI 智能體這個術語被廣泛討論，有很多咨詢報告討論關於 AI 智能體，AI 的未來等等。我想更實質性地與你分享我在 AI 智能體中看到的一些常見設計模式。這是一個復雜混亂的領域，有大量的研究，大量的開源專案。有很多東西正在進行。但我試圖更貼切地概述 AI 智能體的現狀。

反思是我認為我們大多數人應該使用的一個工具。它確實很有效。我認為它應該得到更廣泛的套用。這確實是一種非常穩健的技術。當我使用它們時，我總能讓它們正常工作。至於規劃和多智能體協作，我認為它是一個新興的領域。當我使用它們時，有時我會對它們的效果感到驚訝。但至少在此刻，我不能確定我總是能讓它們穩定執行。所以讓我在接下來的幾頁投影片中詳細介紹這四種設計模式。如果你們中有人回去並親自嘗試，或者讓你們的工程師使用這些模式，我認為你會很快看到生產力的提升。

所以，關於反思，這是一個例子。比如說，我要求一個系統為我編寫一項任務的程式碼。然後我們有一個編程智能體，只需給它一個編碼任務的提示，比如說，定義一個執行任務的函數，編寫一個這樣的函數。一個自我反思的例子就是，你可以這樣對大語言模型進行提示。這是一段為某個任務編寫的程式碼。然後把它剛生成的完全一樣的程式碼再呈現給它。然後讓它仔細檢查這段程式碼是否正確、高效且結構良好，像這樣提出問題。結果顯示，你之前提示編寫程式碼的同一大語言模型可能能夠發現像第五行的 bug 這樣的問題，並修復它。等等。如果你現在把它自己的反饋再次呈現給它，它可能會創作出版本二的程式碼，這個版本可能比第一個版本表現得更好。雖然不能保證，但是在大多數情況下，這種方法在許多套用中值得嘗試。提前透露一下，如果你讓它執行單元測試，如果它沒有透過單元測試，那麽你可以詢問它為什麽沒有透過單元測試？進行這樣的對話，也許我們可以找出原因，沒能透過單元測試，所以你應該嘗試改變一些東西，然後生成 V3 版本的程式碼。順便說一句，對於那些想要了解更多關於這些技術的人，我對這些技術感到非常興奮。對於講解的每個部份，我都在底部附有一些推薦閱讀的資料，希望能提供更多的參考。

再次預告一下多智能體系統，我描述的是一個編程智能體，你可以提示它和自己進行這樣的對話。這個想法的一個自然演變就是，不只有一個編程智能體，你可以設定兩個智能體，一個是編程智能體，另一個是評審智能體。這些都可能基於同一款大語言模型，只是我們提供的提示方式不同。我們對一方說，你是編程專家，請寫程式碼。對另一方我們會說，你是程式碼審查專家，請審查這段程式碼。實際上，這樣的工作流程非常便於實施。我認為這是一種非常通用的技術，能夠適應各種工作流程。這將顯著提升大語言模型的效能。

第二種設計模式是使用工具。你們中的許多人可能已經看到過基於大語言模型的系統如何使用工具。左邊是來自副駕駛的截圖，右邊是我從 GPT-4 中提取的部份內容。然而，如果你讓今天的大語言模型去回答網頁搜尋中哪款影印機最好這樣的問題，它會生成並執行程式碼。實際上，有很多不同的工具，被許多人用來進行分析，收集資訊，采取行動，提高個人效率。

早期在工具使用方面的研究，大部份來自電腦視覺社區。因為在大語言模型出現之前，它們無法處理影像。所以，唯一的選擇就是讓大語言模型生成一個可以操作影像的函數，比如生成影像或者進行物體檢測等。因此，如果你仔細研究相關文獻，你會發現很多工具使用的研究看似起源於視覺領域，因為在 GPT-4 和 LLaVA 等出現之前，大語言模型對影像一無所知。這就是工具的使用，它擴大了大語言模型的套用範圍。

接下來是規劃。對於那些還未深入研究規劃演算法的人，我覺得很多人都會談到 ChatGPT 的震撼時刻，那種前所未有的感覺。我覺得你們可能還沒有使用過規劃演算法。有很多人會感嘆，哇，我沒想到 AI 智能體能做得這麽好。我曾經進行過現場演示，當某件事情失敗了，AI 智能體會重新規劃路徑來規避失敗。事實上，已經有好幾次我被自己的 AI 系統的自主能力所震驚了。

我曾經從一篇關於 GPT 模型的論文中改編過一個例子，你可以讓它生成一張女孩正在讀書的圖片，與圖片中的男孩姿勢一致，例如，example.jpeg，然後它會描述新圖片中的男孩。利用現有的 AI 智能體，你可以決定首先確定男孩的姿勢，然後找到合適的模型，可能在 HuggingFace 這個平台上，來提取姿勢。接下來，你需要找到一個後處理影像的模型，合成一張根據指令的女孩的圖片，然後使用圖片轉化為文本，最後使用文本轉化為語音的技術。

目前，我們有一些 AI 智能體，雖然它們並不總是可靠，有時候會有些繁瑣，不一定能成功，但是一旦它們成功了，效果是相當驚人的。有了這種智能體迴圈的設計，有時候我們甚至可以從之前的失敗中恢復過來。我發現我已經開始在一些工作中使用這樣的研究型智能體，我需要一些研究，但是我並不想自己去搜尋，花費大量的時間。我會將任務交給研究型智能體，過一會兒再回來看它找到了什麽。有時候它能找到有效的結果，有時候則不行。但無論如何，這已經成為我個人工作流程的一部份了。

最後一個設計模式是多智能體協作。這個模式可能看起來有些奇怪，但實際效果比你想象的要好得多。左邊是一篇名為"Chat Dev"的論文的截圖，這個專案是完全開放的，實際上已經開源了。許多人可能見過那些炫耀的社交媒體釋出的"Devin"的演示，在我的筆記電腦上也可以執行"Chat Dev"。"Chat Dev"是一個多智能體系統的例子，你可以設定一個大語言模型（LLM）去扮演軟件工程公司的 CEO、設計師、產品經理，或者測試員等角色。你只需要告訴 LLM，你現在是 CEO，你現在是軟件工程師，然後它們就會開始協作，進行深入的對話。如果你告訴它們去開發一個遊戲，比如 GoMoki 遊戲，它們會花幾分鐘來編寫程式碼，測試，叠代，然後生成出驚人的復雜程式。雖然並不總是成功，我也遇到過失敗的情況，但有時它的表現讓人驚嘆，而且這個技術正在不斷進步。另外，另一種設計模式是讓不同的智能體辯論，你可以有多個不同的智能體，比如 ChatGPT 和 Gemini 進行辯論，也是一種有效提升效能的模式。所以，讓多個模擬的 AI 智能體協同工作，已經被證明是一個非常強大的設計模式。

總的來說，這些就是我觀察到的設計模式，我認為如果我們能在工作中套用這些模式，我們可以更快地提升 AI 效果。我相信智能體推理設計模式將會是一個重要的發展方向。

這是我的最後一張投影片。我預計，人工智能能做的任務將在今年大振幅擴充套件，這是由於智能體工作流的影響。有一點人們可能難以接受的是，當我們向 LLM 發送提示詞時，我們希望馬上得到回應。實際上，十年前我在谷歌進行的一項名為"大盒子搜尋"的討論中，我們輸入很長的提示詞。我當時未能成功推動這一點，因為當你進行網絡搜尋時，你希望在半秒鐘內得到回應，這是人性。我們喜歡即時的反饋。但是對於很多智能體工作流程，我認為我們需要學會將任務委派給 AI 智能體，並且耐心等待幾分鐘，甚至可能需要等待幾個小時來獲取回應。就像我看到的許多新手經理，他們將任務委派給別人，然後五分鐘後就去檢視情況，這並不高效，我們也需要對一些 AI 智能體這樣做，盡管這非常困難。我以為我聽到了一些笑聲。

另外，快速生成 token 是一個重要的趨勢，因為我們在不斷叠代這些智能體工作流程。LLM 為自己閱讀生成 token，能夠比任何人都快速生成 token 更棒。我認為，甚至來自稍微質素低點的 LLM，也能快速生成更多的 token，可能會得到好的結果，相比之下，從質素更好的 LLM 中慢速生成 token，也許會不盡如人意。這個觀點可能會引起一些爭議，因為它可能讓你在這個過程中多轉幾圈，就像我在第一張投影片上展示的 GPT-3 和智能體架構的結果一樣。

坦率地說，我非常期待 Claude 4，GPT-5，Gemini 2.0, 以及正在建設中的所有其他精彩模型。在我看來，如果你期待在 GPT-5 零樣本學習上執行你的專案，你可能會發現，透過在早期模型上使用智能體和推理，你可能比預期更早地接近 GPT-5 效能水平。我認為這是一個重要的趨勢。

誠實地說，通向通用人工智能的道路更像是一段旅程，而不是一個目的地，但我認為這種智能體工作流可能幫助我們在這個非常長的旅程上邁出一小步。

謝謝。

（本文正選鈦媒體App，作者｜林誌佳）