從AI Agent到Agentic Workflow，25篇論文全面了解智能體工作流

2024-07-26科技

25篇關於智能體工作流的論文，關註Agentic workflow不要錯過

想要了解智能體工作流，一定不要錯過這25篇LLM及workflow相關論文

從LLM到AI Agent再到workflow，25篇論文全面了解智能體工作流

從架構到系統，從基準到方法論，6大類25篇論文助你吃透智能體工作流

想要系統了解智能體工作流，看這25篇論文就夠了

什麽是智能體工作流？Agentic workflow有哪些系統和工具？一篇文章看明白

文/王吉偉

著名AI學者、史丹福大學教授吳恩達提出了AI Agent的四種設計方式後，Agentic Workflow（智能體工作流）立即火爆全球，多個行業都在實踐智能體工作流的套用，並推動了新的Agentic AI探索熱潮。

技術的發展與套用已經進入新的拐點，從大語言模型（Large Language Models，LLM）到AI Agent再到Agentic workflow，這些新的技術一經出現便得到快速套用。而AI Agent和Agentic workflow作為LLM的落地套用方式，鑒於它在各種場景的普適性和靈活性，其普及速度比我們想的快很多。

比如在4月份文心智能體平台就已匯聚超5萬開發者，建立智能體超過3萬，還有30萬創作者在文心一言APP建立了智能體，上線了40萬個功能豐富的智能體，智能體呼叫量達8億。在Coze平台，單是構建智能體能呼叫的外掛程式就已超過100個。

王吉偉頻道盤點過的80多個AI Agent構建平台中，有很多平台已經有不少使用者和數量可觀的智能體。其中，OpenAI的GPTs數量在今年1月份就已經超過300萬個。

擴充套件閱讀： AI智能體構建智能未來，全球80+AI Agent構建平台大盤點

智能體來勢洶洶，已經引起很多人的擔心。比如【互聯網的未來】一書的作者哈佛大學法學院教授Jonathan Zittrain就已在【The Atlantic】雜誌上發文，他認為當智能體形成數百萬量級的龐大生態時，其行為可能不受控制，進而對人類社會產生重大危害，所以應該立即對智能體的行為進行規範，並改進現有互聯網標準，從而更好地控制智能體，防止它們失控。

文章連結：https://www.theatlantic.com/technology/archive/2024/07/ai-agents-safety-risks/678864/

這篇文章，也從側面見證了Agentic workflow的野蠻生長。

雖然Agentic Workflow已獲得驚人的進展，但業內外對其認知還存在一定的偏差。

吳恩達教授在介紹Agentic Workflow時，認為它是與 LLM 互動和完成任務的一種方法，可以將任務分解成多個步驟，在不同環節進行叠代，指導最終生成期望的結果。並將 Agentic Workflow的設計模式總結為反思、工具使用、規劃和多智能體協作四種。

擴充套件閱讀： Agentic Workflow加速Agentic AI到來，AI Agent成為重要實作方式

Coze的Bot構建頁面

但在實際套用中，我們經常會看到智能體工作流的套用模式遠不止這四種模式。比如Coze不只推出了多智能體和工作流功能，還衍生出了影像流。

而最終透過外掛程式、大模型、程式碼、知識庫、工作流、影像流、選擇器、文本處理、訊息、變量、數據庫等構建的工作流，又會被置入「技能」模組而最終構建成為一個智能體（Coze平台稱之為Bot）。更多的智能體，可以執行更多的任務，參與相對復雜的業務流程。

還有，如果仔細觀察你會發現，在LLM套用越發普及化的前提下，很多工作流都是混合了傳統業務流程與智能體工作流。其中既有「四種模式」的工作流，也有傳統套用嵌入GenAI的工作流，還有簡單的直接套用大語言模型的工作流。

一個典型的案例就是，目前透過AI Agent構建平台構架的智能體工作流尚無法完成操作企業管理軟件等復雜業務流程（受API及連結能力限制），而透過RPA等超自動化工具連結更多的簡單智能體工作流就是不錯的方式。

與此同時，RPA等超自動化工具現在也已經前進演化成RPA Agent，使用RPA本身也是對智能體工作流的一種套用。並且這種方式，正在被越來越多地套用於企業級業務場景。

在王吉偉頻道看來，Agentic Workflow並非簡單的智能體工作流，而是包含傳統軟件（工具、解決方案）、大語言模型、AI Agent等在內的新型業務流程的集合。當傳統業務流程包含了LLM工作流或者Agent工作流，都可以視作Agentic Workflow。

尤其是在大語言模型Agent化以及智能助手（Copilot也具備反思、規劃、工具使用能力並能呼叫Agent）Agent化的趨勢下，顯然它們更符合Agentic Workflow的定義。

所以要研究Agentic Workflow，不只要看AI Agent以及Agentic Workflow本身，更要關註大語言模型及RPA等傳統業務流程在LLM及Workflow方面的進展。

為了讓大家更好地學習與理解Agentic Workflow，本文精選了25篇智能體工作流相關的論文，並將其分為技術框架、系統（套件與工具）、評估測試基準、程式語言、模型與工作流及方法論六大類，希望對大家有所幫助。

註：為了方便不能科學上網的朋友，已將本文提到的所有論文打包。後台發訊息 Workflow ，獲取論文資源。

一、技術框架

1、Sibyl：用於復雜現實世界推理的簡單而有效的智能體框架

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

論文地址：https://arxiv.org/abs/2407.10718

大型語言模型（LLM）整合了固有知識、上下文學習和零樣本能力，展現出強大的問題解決能力。然而，現有智能體在長期推理和工具潛力利用方面存在不足，導致現實世界推理任務中的缺陷。為克服這些限制，Sibyl作為一個新型的LLM智能體框架，透過最少工具有效處理復雜推理任務。

Sibyl從全球工作空間理論中獲取靈感，整合了全球工作空間，加強了系統知識和對話歷史的管理與共享。在心智理論的指導下，Sibyl透過內送流量備援容錯機制體辯論的陪審團機制自我完善答案，確保全面性和平衡性。這一設計旨在簡化系統復雜性，拓寬問題解決範圍，促進從系統1到系統2的思維轉變。

Sibyl註重可延伸性和易偵錯性，采用函數語言程式設計中的重入概念，以無縫整合到其他LLM套用中。在GAIA基準測試集中，Sibyl實作了34.55%的平均得分，展現了其先進效能。論文作者期望Sibyl能推動開發更可靠和可重用的LLM智能體，以應對復雜的現實世界推理挑戰。

2、PEER：使用多智能體框架和調優方法對特定領域的任務進行專業化

PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods

論文地址：https://arxiv.org/abs/2407.06985

在專業領域套用中，GPT-4 透過精確的提示和檢索增強生成（RAG）技術展現出巨大潛力，但同時也面臨效能、成本和數據私密的三重困境。高效能需求往往需要復雜的技術處理，而要管理多個智能體在復雜工作流程中的表現，不僅成本高，難度也大。

為應對這些挑戰，論文提出了 PEER（規劃、執行、表達、審查）多智能體框架。該框架透過整合精細的問題拆解、高效的資訊檢索、綜合的總結能力以及嚴格的自我評估，系統化地處理專業領域任務。

考慮到成本和數據私密的顧慮，許多企業正從 GPT-4 等專有模型轉向客製模型，以期在成本、安全性與效能之間找到平衡點。團隊利用線上數據和使用者反饋，開發了一套行業實踐，旨在實作模型的高效調整。

本研究提供了一套最佳實踐指南，用於在特定領域問題解決中套用多智能體系統，並實施有效的智能體調優策略。特別是在金融問答領域的實證研究表明，該方法達到了 GPT-4 效能的 95.0%，同時在成本控制和數據私密保護方面表現出色。

3、BMW Agents——透過多智能體協作實作任務自動化的框架

BMW Agents -- A Framework For Task Automation Through Multi-Agent Collaboration

論文地址：https://arxiv.org/abs/2406.20041

由大型語言模型（LLM）驅動的自主智能體展現了自動化的巨大潛力。技術的初步成效已在多個演示中顯現，其中包括智能體解決復雜任務、與外部系統互動以擴充套件知識，以及觸發必要操作。

特別是，多個智能體以協作方式共同解決復雜任務的場景，彰顯了它們在非嚴格和非明確環境下的運作能力。因此，多智能體方法在許多工業套用中具有極大的套用潛力，無論是構建復雜的知識檢索系統還是開發下一代機器人流程自動化。

考慮到當前LLM一代的推理能力，處理復雜流程需要采取多步驟策略，這包括制定明確定義的模組化任務計劃。這些任務可以由單一智能體或一組智能體根據其復雜性執行。在本項研究中，團隊專註於構建一個靈活的智能體工程框架，特別關註規劃和執行階段，以應對跨不同領域的復雜套用案例。

該框架能夠為工業套用提供了所需的可靠性，並且為確保多個自主智能體能夠協同工作、共同解決問題提供了一套可延伸、靈活且協作的技術流程。

4、Trace是新的AutoDiff——解鎖計算工作流的高效最佳化

Trace is the New AutoDiff -- Unlocking Efficient Optimization of Computational Workflows

論文地址：https://arxiv.org/abs/2406.16218

專案地址：https://microsoft.github.io/Trace

論文探索了一種針對自動化編碼助手、機器人和副駕駛等人工智能系統的最佳化問題，研究團隊開發了一個名為Trace的端到端最佳化框架，它將AI系統的計算流程視為神經網絡圖，並基於反向傳播的泛化進行最佳化。這種最佳化處理了包括豐富反饋、異構參數和復雜目標在內的多種因素，並能適應動態變化的計算圖。

Trace框架透過一種新的叠代最佳化數學設定——使用跟蹤預言機最佳化（OPTO）——來捕獲和抽象AI系統的特性，以設計跨領域的最佳化器。在OPTO中，最佳化器透過接收執行跟蹤和輸出反饋來叠代更新參數。Trace提供了一個Python介面，利用類似PyTorch的介面高效地將計算流程轉換為OPTO例項。

利用Trace，團隊開發了一個名為OptoPrime的通用最佳化器，它基於LLM，能夠解決多種OPTO問題，包括數值最佳化、提示最佳化、超參數調優、機器人控制器設計和程式碼偵錯等，且效能可與領域內專業最佳化器相媲美。論文認為，Trace、OptoPrime和OPTO框架將推動下一代互動式智能體的發展，使其能夠利用各種反饋實作自動適應。

5、RCAgent：使用工具增強型大型語言模型的自治智能體進行雲根本原因分析

RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models

https://arxiv.org/abs/2310.16340

近期，雲根本原因分析（RCA）領域對大型語言模型（LLM）的套用進行了積極探索。但現有方法仍依賴手動設定工作流，未能充分發揮LLM在決策和環境互動方面的能力。為此，研究團隊推出了RCAgent，這是一個工具增強的LLM自治智能體框架，專為實用且註重私密的工業RCA設計。

RCAgent不依賴外部模型如GPT系列，而是在內部部署的模型上執行，能夠自主進行自由格式的數據收集和綜合分析。該框架融合了多項增強功能，包括行動軌跡的自洽性，以及一系列用於上下文管理、穩定性提升和領域知識匯入的方法。

實驗結果表明，RCAgent在RCA的多個方面（如預測根本原因、解決方案、證據和責任）以及規則內外任務上均顯示出顯著且一致的優勢，這些優勢已透過自動化指標和人工評估得到驗證。此外，RCAgent已成功整合至阿裏雲Apache Flink即時計算平台的診斷和問題發現工作流程中，進一步提升了工業RCA的效率和準確性。

二、系統、套件與工具

1、AgileCoder：基於敏捷方法論的軟件開發動態協作智能體

AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology

論文地址：https://arxiv.org/abs/2406.11912

軟件智能體正成為解決復雜軟件工程任務的有前景的工具。然而，現有研究常常過於簡化軟件開發流程，而現實世界中的這些流程往往更為復雜。

為了應對這一挑戰，研究團隊設計了AgileCoder，這是一個將敏捷方法論（AM）整合進框架的多智能體系統。該系統將特定的AM角色，如產品經理、開發人員和測試人員，分配給不同的智能體，它們根據使用者輸入協作開發軟件。

AgileCoder透過組織工作為一系列沖刺（sprint），提高開發效率，並專註於逐步完成軟件的開發。此外，還引入了一個動態程式碼圖生成器，該模組能夠在程式碼庫更新時動態建立程式碼依賴圖。這使得智能體能夠更深入地理解程式碼庫，從而在軟件開發過程中實作更精確的程式碼生成和修改。

AgileCoder在效能上超越了現有的基準，如ChatDev和MetaGPT，樹立了新的標準，並展現了多智能體系統在高級軟件工程環境中的強大能力。這標誌著軟件開發向更自動化、智能化方向邁出了重要一步。

2、Parrot：使用語意變量高效提供基於LLM的應用程式

Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

論文地址：https://arxiv.org/abs/2405.19888

LLM的興起催生了基於LLM與傳統軟件優勢的新型應用程式——AI智能體（也叫副駕駛），這是一種軟件新範式。

不同租戶的LLM應用程式透過多個LLM請求設計復雜工作流以完成任務，但受限於當前公共LLM服務提供的簡化請求級API，遺失了關鍵的應用程式級資訊。這些服務只能盲目最佳化單個LLM請求，導致應用程式的整體效能不佳。

該論文介紹了Parrot，這是一個專註於LLM應用程式端到端體驗的服務系統。Parrot引入了語意變量的概念，這是一種統一的抽象，將應用程式級知識暴露給公共LLM服務。語意變量在請求提示中標註輸入/輸出變量，並在連線多個LLM請求時形成數據管道，提供了一種自然的LLM應用程式編程方式。

公開語意變量給公共LLM服務，使其能夠執行數據流分析，揭示多個LLM請求間的相關性，為LLM應用程式的整體效能最佳化開辟了新空間。廣泛的評估顯示，Parrot針對流行和實際的LLM應用程式用例實作了顯著的效能提升。

3、使用基礎模型實作企業自動化

Automating the Enterprise with Foundation Models

論文地址：https://arxiv.org/abs/2405.03710

專案地址：https://github.com/HazyResearch/eclair-agents

企業工作流程自動化每年可帶來 4 萬億美元的生產力提升。盡管這一領域已受到數據管理社區數十年的關註，但實作端到端工作流自動化的終極目標仍然具有挑戰性。現有解決方案主要依賴流程挖掘和機器人流程自動化（RPA），這些機器人通常被寫死以遵循預設規則。

透過對醫院和大型B2B企業的案例研究，研究團隊發現RPA的普及受到諸如高設定成本（12-18個月）、執行不可靠（初始準確率60%）和維護繁重等問題的制約。新一代多模態基礎模型（FM），如GPT-4，以其卓越的推理和規劃能力，為工作流自動化提供了新的可能性。

為此，論文提出了ECLAIR系統，它在最少人工監督下實作企業工作流程自動化。初步實驗顯示，ECLAIR透過多模態FM實作了接近人類水平的工作流理解（準確率93%），並基於工作流的自然語言描述即可快速設定，實作了40%的端到端完成率。論文認為，人與AI的協作、驗證和自我改進是未來研究的開放性挑戰，並提出利用數據管理技術來解決這些問題。

4、S-Agents：開放環境中的自組織智能體

S-Agents: Self-organizing Agents in Open-ended Environments

https://arxiv.org/abs/2402.04578

利用LLM，自主智能體在處理各類任務上取得了顯著進步。在開放環境中，為了提升協作的效率和有效性，需要靈活調整策略。然而，現有研究多聚焦於固定且任務導向的工作流程，而忽視了以智能體為中心的組織結構。

受人類組織行為的啟發，該團隊提出了一種自組織智能體系統（S-Agents），它包括動態工作流的「智能體樹」結構、用於平衡資訊優先級的「沙漏智能體架構」，以及支持智能體間異步任務執行的「非阻礙協作」方法。這一結構使得一組智能體能在無人為幹預下，有效應對開放和動態環境的挑戰。

團隊的實驗在Minecraft環境中進行，S-Agent系統在執行協作建造和資源收集任務時表現出了熟練和高效，從而驗證了其組織結構和協作方法的有效性。這一研究成果為智能體在復雜環境中的自組織協作提供了新的視角和解決方案。

5、一種人機協作工具，用於透過幾個範例將單個大型語言模型智能體訓練到網絡中

A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples

論文地址：https://arxiv.org/abs/2404.15974

單個大型語言模型（LLM）智能體在解決復雜任務時能力有限。透過將多個LLM智能體連線成網絡，可以顯著提升整體效能。然而，構建這樣的LLM智能體網絡（LAN）是一項耗時且復雜的過程。

在本研究中，團隊推出了EasyLAN，這是一個旨在幫助開發者構建智能體網絡的人機協作工具。EasyLAN首先根據任務描述生成一個只包含單個智能體的網絡。然後，它利用訓練樣本來逐步最佳化網絡。EasyLAN會分析輸出與實際值之間的差異，診斷錯誤原因，並采取策略進行修正。使用者可以參與EasyLAN的工作流程，或直接對網絡進行調整。

最終，網絡從單一智能體發展成為一個成熟的LLM智能體網絡。實驗結果表明，使用EasyLAN，開發者能夠迅速構建出效能優異的智能體網絡。這一工具極大地簡化了智能體網絡的構建過程，提高了開發效率。

6、PromptRPA：根據文本提示在智能電話上生成機器人流程自動化

PromptRPA: Generating Robotic Process Automation on Smartphones from Textual Prompts

論文地址：https://arxiv.org/abs/2404.02475

機器人流程自動化（RPA）透過模擬人機互動，在不修改現有程式碼的基礎上，為自動化圖形化使用者介面（GUI）上的任務提供了有效的解決方案。但RPA的廣泛套用受限於對手稿語言和工作流設計專業知識的需求。

為解決這一問題，研究團隊提出了PromptRPA，這是一個能夠理解與任務相關的各種文本提示（如目標、程式）並生成及執行相應RPA任務的系統。

PromptRPA由一系列智能體組成，它們模仿人類的認知功能，專門用於解讀使用者意圖、管理由RPA生成的外部資訊，並在智能電話上執行操作。這些智能體能夠從使用者反饋中學習，並根據積累的知識不斷提升效能。

實驗結果顯示，使用PromptRPA後，效能從基線的22.28%顯著提升至95.21%，且每個新任務平均僅需1.66次使用者幹預。

PromptRPA在建立教程、智能輔助以及客戶服務等領域展現出廣闊的套用前景，為RPA技術的進一步普及和套用提供了新的可能性。

7、ProAgent：從機器人流程自動化到智能體流程自動化

ProAgent: From Robotic Process Automation to Agentic Process Automation

論文地址：https://arxiv.org/abs/2311.10751

專案地址：https://github.com/OpenBMB/ProAgent

自動化技術從古代的水車發展到今天的RPA，一直在解放人類從事繁重任務。但RPA在處理需要人類智能的任務時面臨挑戰，尤其是在精心設計工作流和執行中的動態決策方面。

隨著大型語言模型（LLM）的出現，研究團隊提出了智能體流程自動化（APA），這是一種革命性的自動化新範式，利用基於LLM的智能體實作高級自動化，透過將任務分配給負責構建和執行的智能體來減輕人力負擔。

論文具體實作了ProAgent，這是一個基於LLM的智能體，它可以根據人工指令建立工作流程，並透過協調專業的智能體做出復雜決策。

透過實證實驗，論文詳細展示了APA在工作流構建和執行方面的過程，證明了APA的可行性，並展現了由智能體驅動的自動化新範式的巨大潛力。這不僅為自動化領域帶來了新的視角，也為未來智能自動化的發展提供了新的方向。

8、基於LLM的智能體調查：常見工作流和可重用的LLM分析元件

A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components

論文地址：https://arxiv.org/abs/2406.05804

大型語言模型（LLM）的最新進展推動了基於LLM的復雜智能體框架的開發。然而，這些框架的復雜性在一定程度上阻礙了細粒度差異化的實作，這對於在不同框架間高效實作功能和推動未來研究至關重要。因此，該調查的主要目標是透過辨識通用工作流程和可重用的LLM分析元件（LMPC），來促進對近期提出的多種框架的統一理解。

這項工作旨在簡化不同智能體框架之間的差異，透過提取共通的工作流程和分析元件，為研究者和開發者提供一個更加清晰和一致的視角。透過這種方式，論文希望能夠降低開發和維護智能體框架的難度，同時為未來的研究和創新打下堅實的基礎。

三、評估測試基準

1、WorkArena++：邁向基於作文規劃和推理的常識性工作任務

WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks

論文地址：https://arxiv.org/abs/2407.05291

基準測試專案：https://github.com/ServiceNow/WorkArena/tree/workarena-plus-plus

大型語言模型（LLM）因其模仿人類智能的能力而備受關註，這促使基於LLM的自主智能體數量激增。盡管最新的LLM展現出根據使用者指令進行規劃和推理的潛力，但它們在自主任務解決方面的實際套用效果尚待深入研究。特別是在企業環境中，自動化智能體的套用被寄予厚望，期望能夠帶來顯著的影響。

為了解決這一研究空白，論文提出了WorkArena++，這是一個創新的基準測試套件，包含682個任務，覆蓋知識工作者日常執行的實際工作流程。WorkArena++的目標是全面評估網絡智能體在規劃、問題解決、邏輯/算術推理、資訊檢索以及上下文理解等方面的能力。

透過對最先進的LLM、視覺語言模型（VLM）以及人類工作者的實證研究，論文揭示了這些模型在職場中作為有效助手所面臨的若幹挑戰。

除了基準測試，論文還提供了一種機制，能夠輕松生成數千條基於真實情境的觀察/動作軌跡，這些軌跡可以用於微調現有的智能體模型，並期望這項工作能夠成為推動社區向有能力的自主智能體發展的重要資源。

2、FlowBench：重新審視基於LLM的智能體工作流引導規劃並對其進行基準測試

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agent

論文地址：https://arxiv.org/abs/2406.14884

大型語言模型（LLM）驅動的智能體已成為執行復雜任務的有前途工具，它們透過叠代規劃和行動來完成任務。但當缺乏對專業知識密集型任務的深入理解時，這些智能體可能會產生不切實際的規劃幻想。為提高規劃的可靠性，該團隊嘗試整合與工作流相關的外部知識。

盡管這一方法有潛力，但整合的知識往往雜亂無章、形式多樣，缺乏嚴格的形式化和全面評估。因此，該團隊對不同格式的工作流知識進行形式化處理，並推出了FlowBench——首個工作流引導規劃的基準測試。FlowBench覆蓋6個領域的51個不同場景，以多種形式展現知識。

為了在FlowBench上評估不同的LLM，團隊設計了一個多層評估框架，評估了工作流知識在多種格式下的有效性。結果表明，現有的LLM智能體在規劃方面還有很大的提升空間。論文期望FlowBench這一具有挑戰性的基準測試能夠為未來智能體規劃研究提供參考，推動相關技術的進步。

3、多模態基礎模型是否了解企業工作流？業務流程管理任務的基準

Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks

論文地址：https://arxiv.org/abs/2406.13264

數據集和實驗專案地址：https://github.com/HazyResearch/wonderbread

現有的機器學習（ML）基準測試在評估業務流程管理（BPM）任務時，缺乏足夠的深度和多樣性的註釋。BPM 是一種旨在記錄、衡量、改進和自動化企業工作流的實踐。

目前的研究幾乎完全集中在單一任務上，即利用多模態基礎模型（FM）如 GPT-4 實作端到端的自動化。這種對自動化的專註忽視了大多數BPM工具的實際套用情況——在典型的流程最佳化專案中，僅僅記錄相關工作流就占據了60%的時間。

為了填補這一空白，研究團隊推出了WONDERBREAD，這是首個用於評估BPM任務的多模態FM基準測試，它超越了自動化的範疇。該論文的貢獻包括：

一個包含2928個記錄工作流程演示的數據集；

6個新的BPM任務，涵蓋從工作流文件到知識轉移再到流程改進的實際套用；

一套自動評估工具。基準測試顯示，盡管最先進的FM能夠自動生成文件（例如，在工作流程的影片演示中辨識88%的步驟），但它們在將這些知識重新套用於更精細的工作流程完成驗證方面表現不佳（F1分數小於0.3）。

團隊期望WONDERBREAD能夠激勵開發更多以人為中心的AI工具，用於企業應用程式，並進一步探索多模態FM在更廣泛的BPM任務中的套用。

四、程式語言

APPL：一種提示程式語言，用於程式和大型語言模型提示的和諧整合

APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts

論文地址： https://arxiv.org/abs/2406.13161

大型語言模型（LLM）透過精心設計的提示和外部工具的整合，日益展現出處理各類任務的能力。然而，隨著任務復雜性的提升，涉及LLM的工作流程可能變得復雜，難以實作和維護。為解決這一難題，研究團隊提出了APPL，一種新穎的提示程式語言，它作為電腦程式與LLM之間的橋梁，支持將提示無縫嵌入Python函數，反之亦然。

APPL具備直觀的Python原生語法，擁有異步語意的高效並列化執行時環境，並且配備了無需額外成本的跟蹤模組，以支持有效的故障診斷和重放。論文透過三個典型場景——自一致性的思維鏈（CoT-SC）、ReAct工具使用的智能體，以及多智能體聊天——證明了APPL程式的直觀性、簡潔性和高效性。

此外，對三個可並列化工作流的實驗進一步證實了APPL在並列化獨立LLM呼叫方面的有效性，並實作了與預期估算相匹配的顯著加速比。這表明APPL是一個強大的工具，能夠提升LLM在復雜任務中的效能和可用性。

五、模型與工作流

1、Granite Code Models：用於程式碼智能的開放基礎模型系列

Granite Code Models: A Family of Open Foundation Models for Code Intelligence

論文地址： https://arxiv.org/abs/2405.04324

專案地址： https://github.com/ibm-granite/granite-code-models

LLM在程式碼訓練方面取得了突破性進展，正深刻改變著軟件開發的生態。越來越多的程式碼LLM被融入到軟件開發工具中，以提升程式設計師的工作效率。同時，基於LLM的智能體也開始展現出獨立處理復雜編碼任務的能力。

要充分發揮程式碼LLM的潛力，需要它們具備廣泛的能力，如程式碼生成、錯誤修復、程式碼解釋、文件編寫和程式碼庫維護等。在本項研究中，團隊推出了Granite系列僅解碼器程式碼模型，專門用於程式碼生成任務。這些模型經過了116種程式語言的程式碼訓練，覆蓋了從30億到340億參數大小不等的多種模型，能夠滿足從復雜的套用現代化到器材記憶體受限的各種場景。

透過一系列綜合任務的評估，團隊發現Granite Code模型在所有可用的開原始碼LLM中始終保持最先進的效能。

該模型系列針對企業級軟件開發流程進行了特別最佳化，在程式碼生成、修復和解釋等多項編碼任務中均有出色表現，成為一個多功能的全能型程式碼模型。所有Granite Code模型均在Apache 2.0特許下釋出，既適用於研究也適用於商業用途，為軟件開發領域帶來了前所未有的靈活性和創新潛力。

2、邁向實作零樣本提示最佳化的分層多智能體工作流程

Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization

論文地址： https://arxiv.org/abs/2405.20252

大型語言模型（LLM）在解答使用者問題上取得了顯著進步，支撐了多樣化的套用場景。但LLM的回答質素極大程度上依賴於提示的質素，一個精心設計的提示能夠引導LLM準確回答極具挑戰性的問題。

盡管已有研究開發了多種策略來最佳化提示，包括手工制作和領域內最佳化，它們在開放場景下的有效性仍受限，因為前者依賴於人類對問題的理解，而後者對未見過場景的泛化能力不足。

為克服這些限制，研究團隊提出了一種讓LLM自主設計最佳提示的方法。具體來說，團隊構建了一個分層的提示生成框架，首先建立包含精確指令和準確措辭的提示，再基於此生成最終答案。這一流程稱為分層多智能體工作流（HMAW）。

與現有方法相比，HMAW不受任何人類預設限制，無需訓練，完全任務獨立，同時能夠適應任務的細微差別。透過跨多個基準的實驗，證實了HMAW雖然簡單，卻能建立出詳盡且合適的提示，進一步提升了LLM的效能。

3、面向混合現實的多模態細粒度培訓助手的自主工作流

Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality

論文地址： https://arxiv.org/abs/2405.13034

自主人工智能智能體（Autonomous Agent）在自動理解基於語言的環境中展現出巨大潛力，尤其是在大型語言模型（LLM）迅猛發展的背景下。然而，對多模態環境的深入理解尚待進一步探索。本研究設計了一個自主工作流程，旨在將AI智能體無障礙地整合到擴充套件現實（XR）套用中，實作細粒度訓練。

論文展示了一個在XR環境中用於樂高積木組裝的多模態細粒度培訓助手的案例。該智能體結合了LLM、記憶、規劃功能以及與XR工具的互動能力，能夠根據歷史經驗做出決策。此外，論文介紹了LEGO-MRTA，這是一個多模態細粒度裝配對話數據集，它能夠在商業LLM服務的工作流程中自動合成，包含多模態說明、對話、XR響應和視覺問答。

研究團隊選取了幾個流行的開放資源LLM作為基準，評估它們在微調和未微調狀態下對團隊提出的數據集的效能。論文期望這一工作流程能夠推動更智能助手的開發，實作XR環境中的無縫使用者互動，並促進AI和人機互動（HCI）社區的研究。

六、方法論

1、利用多AI智能體進行跨領域知識發現

Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery

論文地址： https://arxiv.org/abs/2404.08511

在迅速發展的人工智能領域，跨領域知識的整合與套用是一項關鍵的挑戰與機遇。本研究提出了一種新方法，透過部署專註於不同知識領域的多人工智能智能體，實作跨學科的知識發現。每個智能體都像特定領域的專家，在統一框架下協同工作，提供綜合的、超越單一領域限制的深入見解。

研究團隊的平台透過促進智能體間的無縫互動，利用每個智能體的獨特優勢，增強了知識發現和決策過程。透過對比分析不同的多智能體工作流場景，評估了它們在效率、準確性和知識整合廣度上的表現。實驗結果表明，這些特定領域的多智能體系統在辨識和填補知識空白方面表現出色。

這項研究不僅凸顯了協作智能在促進創新中的關鍵作用，也為人工智能推動的跨學科研究和套用的發展奠定了基礎。團隊在小規模試點數據上評估了其方法，結果顯示出預期趨勢，隨著自訂訓練智能體的數據量增加，這些趨勢預計將變得更加明顯。

2、從頭開始為類似計劃的任務開發基礎模型的案例

The Case for Developing a Foundation Model for Planning-like Tasks from Scratch

論文地址： https://arxiv.org/abs/2404.04540

基礎模型（FM）徹底改變了許多計算領域，包括自動規劃和排程（APS）。例如，最近的一項研究發現它們對規劃問題很有用：計劃生成、語言轉譯、模型構建、多智能體規劃、互動式規劃、啟發式最佳化、工具整合和大腦啟發規劃。

除了APS，還有許多工涉及生成一系列行動，這些行動對於達成目標的可執行性有不同的保障，團隊統稱這些為類似計劃（PL）任務，例如業務流程、程式編寫、工作流管理和指南制定。研究人員正考慮將FM套用於這些領域。

然而，以往的研究多集中在使用現成的預訓練FM，並可能對它們進行微調。該論文討論了為PL任務從頭開始設計全面的FM的必要性，並探討了設計時需考慮的因素。論文認為，這樣的FM將為PL問題提供新的有效解決方案，正如大型語言模型（LLM）為APS領域所做的那樣。

3、Transformations時代的轉變

Transformations in the Time of The Transformer

論文地址： https://arxiv.org/abs/2401.10897

基礎模型為以人工智能為主導的視角重新設計現有系統和工作流程提供了新的機遇。然而，實作這一轉型面臨著挑戰和需要權衡的問題。本文旨在提供一個結構化的框架，幫助企業在向以AI為優先的組織轉型過程中做出明智的決策。所提供的建議旨在幫助企業全面、有意識地做出知情的選擇，同時避免受到不必要的幹擾。

盡管這個領域看似發展迅猛，但其中一些核心的基礎要素發展步伐相對較慢。團隊專註於這些穩定不變的因素，以此構建論證的邏輯基礎。透過深入理解這些不變的基本面，企業可以更穩健地把握AI轉型的方向和步驟。

4、協同人機互動：與基於LLM的智能體進行服務共創的23種啟發式指南

Synergizing Human-AI Agency: A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents

論文地址： https://arxiv.org/abs/2310.15065

本項實證研究為服務供應商提供了入門知識，幫助他們確定是否以及如何將大型語言模型（LLM）技術整合到其從業者和更廣泛社區的工作之中。透過CoAGent——一種與基於LLM的智能體共同創造服務的工具，研究團隊探索了非AI專家與AI相互學習的過程。

這項研究透過與23位來自美國公共圖書館的領域專家合作，經歷了一個三階段的參與式設計流程，揭示了將AI整合到人類工作流程中所面臨的根本性挑戰。

研究結果提供了23種可操作的「與AI共同創造服務的啟發式方法」，這些方法突出了人類與AI之間微妙的共同責任。並進一步提出了人工智能的9個基本智能體方面，強調了所有權、公平待遇和言論自由等基本要素。這種創新方法透過將AI視為關鍵利益相關者，並利用AI與AI的互動來辨識盲點，從而豐富了參與式設計模型。

這些見解為服務環境中協同和道德的人類與AI共創鋪平了道路，為人工智能共存的勞動力生態系做好了準備。這不僅為服務供應商提供了實用的指導，也為構建人機協作的未來提供了寶貴的洞見。

5、計算管理的基礎：將人工智能整合到現有工作流程中的任務自動化的系統方法

The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows

論文地址： https://arxiv.org/abs/2402.05142

在AI迅猛發展的今天，組織面臨一個核心問題：如何將AI技術有效融入現有營運？為解答這一問題、調控期望並減少挑戰，該論文引入了計算管理——一種系統化的任務自動化方法，旨在增強組織利用AI的潛力。計算管理融合了管理科學的戰略洞察與計算思維的分析精確性，架設了二者之間的橋梁。

論文提供三個分步流程，以助於在工作流中啟動AI的整合。

首先是任務（重新）制定，它將工作活動拆解為基本單元，每個單元由智能體執行，包括明確行動並產生多樣結果。

第二，評估任務自動化潛力，透過任務自動化指數對任務進行評估，依據其標準化輸入、規則明確性、重復性、數據依賴性和客觀輸出進行排序。

第三，任務規範樣版詳述了16個關鍵元件，作為選擇或調整AI解決方案以適應現有工作流程的清單。

這些流程結合了手動和自動方法，並為現有的大型語言模型（LLM）提供了使用提示，以輔助完成這些步驟。計算管理為人與AI的協同提供了路線圖和工具，提升了組織效率和創新力，為人機共榮的未來鋪平了道路。

註：本文論文敘述部份配圖，皆來自論文截圖，具體內容請參考論文詳情。

全文完

【王吉偉頻道，關註AIGC與IoT，專註數碼化轉型、業務流程自動化與RPA。】