智能體不夠聰明怎麼辦?清華&螞蟻團隊:讓它像學徒一樣持續學習
此項研究成果已被 NeurIPS 2024 錄用。該論文的第一作者是清華大學計算機系博士生關健(導師:黃民烈教授),目前任螞蟻研究院副研究員,其主要研究領域爲文本生成、複雜推理和偏好對齊。
隨着 ChatGPT 掀起的 AI 浪潮進入第三年,人工智能體(AI Agent)作爲大語言模型(LLM)落地應用的關鍵載體,正受到學術界和產業界的持續關注。實際上,早在 5-6 年前,預訓練技術就已經在許多實際任務中取得了顯著成果。但 AI Agent 之所以在當下備受矚目,更多地源於其在自動解決複雜任務方面展現出的巨大潛力,而這種潛力的核心基石正是智能體的複雜推理能力。
與當下廣受關注的 OpenAI-o1 及其追隨者略有不同,大多數實用的 AI Agent 往往需要在特定場景下發揮作用。這種情況類似於普通人類:雖然不是每個人都需要具備獲得 IMO 金牌的數學素養,但在具體場景下利用特定知識和工具完成複雜任務(例如使用搜索引擎、處理私有文檔等)的能力卻是不可或缺的。這一特點也意味着 AI Agent 的開發者們需要一套既通用又高效的 Agent 構建方法論。
更具挑戰性的是,作爲面向實際應用的產品,AI Agent 在部署後還需要能夠隨着應用場景的演進和用戶需求的變化而不斷更新優化。這些實際問題都表明,構建一個真正實用的 AI Agent 絕非簡單的提示工程(Prompt Engineering)或模型微調(Fine-tuning)所能解決,而是需要更系統化的方法。
在 NeurIPS 2024 上,來自清華大學和螞蟻集團的研究者針對人工智能體構建方法的通用性和適應性提出了一個新方案。這個被命名爲AMOR(Adaptable MOdulaR knowledge agent)的系統,不僅能低成本地調用專業工具和知識庫,更重要的是,它能像人類一樣持續學習和成長。
AI Agent 的「三大短板」:爲什麼它們還不夠「聰明」?
想讓 AI Agent 真正勝任助手角色,僅有海量知識是遠遠不夠的。研究團隊通過深入分析發現,當前 AI Agent 普遍存在三大短板:
更令人困擾的是,目前業界主流方案都未能同時解決這三大難題。作者對比了當前最具代表性的 AI Agent 框架,它們要麼推理過程不可控,要麼知識固化,要麼反饋機制過於粗糙。這一困境在開源模型中表現得尤爲明顯。
AMOR 和已有構建智能體的代表性方法的比較
AMOR:基於有限狀態機的模塊化推理方案
如何讓 AI Agent 既能像專家一樣嚴謹思考,又能像學徒一樣持續成長?AMOR 框架給出了一個優雅的答案:將複雜的 AI 推理過程拆解成可控的「專家模塊」,通過有限狀態機(FSM)編排它們的協作規則,就像精密的齒輪系統一樣,每個部件都完美齧合。
AMOR 的狀態轉移圖
這種設計帶來三大關鍵優勢:
1. 結構化推理框架
FSM 使得定義步驟間的依賴關係(例如,執行順序、分支選擇)非常方便,因此能夠容易地對錯誤的路徑進行剪枝,從而縮小探索空間,也有潛力更高效地構建類 OpenAI-O1 的長推理鏈。
2. 「雙階段」訓練策略
通過將複雜任務解耦爲獨立模塊,AMOR 能夠獨立訓練每個模塊,從而可以充分利用開源數據集。具體而言,AMOR 採用「預熱 + 適應」兩階段訓練模式:
3. 過程反饋機制
傳統 AI 訓練就像只告訴學生「考試及格 / 不及格」,而不指出具體錯在哪裡。這種粗糙的反饋機制常常導致 AI 像「黑盒」一樣難以診斷問題,訓練效果事倍功半。而 AMOR 引入「過程反饋」機制,在適應訓練階段中,其結構化的推理過程使用戶能夠輕鬆診斷智能體的錯誤,並提供過程反饋以提高智能體的推理能力。
4. 框架通用性
AMOR 框架的設計充分考慮了通用性和可擴展性。雖然論文主要以文本知識庫爲例進行驗證,但其基於 FSM 的模塊化設計天然支持多種應用場景的遷移和擴展:
這種可擴展的架構設計使得 AMOR 不僅能夠解決當前的知識推理任務,更爲未來接入新的知識源、任務類型和工具能力預留了充足的擴展空間。正如論文所述,AMOR 提供了一個構建知識智能體的通用框架,其核心思想是基於 FSM 的推理邏輯和過程反饋機制,這使得它能夠適應各種不同的應用場景需求。
AMOR 實現:模型結構和訓練過程
AMOR 採用了一種巧妙的「專家混合」架構(Module-Aware Mixture-of-Experts,簡稱 MA-MoE)。這種設計靈感來自人類的專業分工:就像一個人可以是優秀的醫生,同時在其他領域保持基本能力。具體來說,MA-MoE 爲每個功能模塊配備了獨特的 FFN 參數,並用原始模型的 FFN 參數進行初始化。這就像是在 AI 的「大腦」中劃分了專門的「思維區域」。
AMOR 實驗:成本更低,效果更好
在 HotpotQA(百科知識問答)、PubMedQA(醫學文獻問答)和 QASPER(論文長文本問答)三個基準測試中,AMOR 展現出優秀的性能:
AMOR 及基線方法在微調或不微調時的實驗結果
實例展示
下圖比較了 AMOR 和傳統的 ReAct 框架(基於 GPT-3.5)分別回答同一問題的推理過程:
AMOR(上)和 ReAct(下)回答同一輸入問題的樣例
如圖所示,沒有明確推理邏輯約束的 ReAct 未能成功分解問題,並在「Thought/Action 5」 中過早地終止檢索。此外,ReAct 在「Thought 2/4/5」中也混合了正確和錯誤的步驟,這使得用戶難以針對性地批評和改進智能體。相比之下,AMOR 則如同經驗豐富的專家,每一步推理都清晰可控,不僅能準確找到答案,還能接受精確的過程指導,持續提升自己的能力。
成本分析
在 AI 領域,性能提升往往意味着更高的成本。然而,如下圖所示,AMOR 打破了這個「魔咒」。
不同智能體的平均步驟數 /token 數對比
爲什麼 AMOR 如此高效?想象一個團隊會議:傳統方法(如 ReAct)像是每個人發言都要重複之前所有人說過的話;AMOR 則像是精心設計的會議流程:每個環節只傳遞必要信息。按照目前 API 調用成本計算,使用 GPT-4o 處理 1 萬個問題,AMOR 比 ReAct 節省數百美元;當使用開源模型時,成本可以進一步降低 90% 以上。這意味着 AMOR 不僅在性能上領先,在商業落地時也具有顯著的成本優勢。尤其適合大規模文檔處理、客服智能問答、專業領域諮詢等高頻場景的應用。
結語
本文介紹了 AMOR—— 一個爲知識密集型任務設計的模塊化智能體框架。它通過 FSM 推理系統和過程反饋機制,讓 AI 展現出前所未有的推理能力和學習潛力。AMOR 的成功爲 AI 助手的發展開闢了新路徑。作者表示,接下來,他們將拓展到更多知識類型(如結構化知識庫)、探索更廣泛的應用場景、研究 AI 自主設計推理邏輯的可能性。這些工作預示着我們正在接近真正的「AI 專家」:既有清晰的推理能力,又能在實踐中持續成長。