AI技術正持續突破單體模型的限制,Anthropic旗下Claude團隊近期公開其多智能體研究系統的完整方法論與架構,揭示如何透過主代理與子代理協作的方式,實現對複雜問題的高效深度探索。該系統已在內部評估中展現出90%以上的效能提升,成為人工智慧應用中「智能倍增」的實證案例。
Claude團隊採用「協調器-工作器」(Coordinator-Worker)架構,由主代理(Lead Agent)分解查詢,根據任務複雜度創建並調度專屬子代理(Subagents),每個子代理擁有獨立工具與提示,負責針對性地執行子任務。這種廣度優先、並行推理的設計,提升了處理速度與覆蓋範圍,適合用於超越單模型token限制的高價值任務。
例如,在內部測試中,採用Claude Opus 4為主代理,搭配Claude Sonnet 4子代理的系統,其成功率比單模型Claude Opus 4高出90.2%。此外,團隊表示,透過並行生成子代理及多工具同時調用,原需數小時的研究可在幾分鐘內完成。
Claude團隊透過提示設計精細引導智能體思維路徑,並明確規劃工作邊界、工具選擇與角色分配。例如,在提示中嵌入「規模調整」指南,讓代理能根據任務難度判斷需啟用多少子代理與工具使用次數;在工具選擇上則優先引導使用專業資源、進行網絡搜索與高效工具配對。
此外,團隊設計了工具測試代理,針對失敗的工具可自動改寫描述,提升未來使用準確率,讓智能體能以更少時間完成任務。
從LLM自動打分到人工質控
為評估多智能體系統表現,團隊發展了一套結合自動化與人工觀察的混合評估體系。首先透過小樣本測試快速調整提示策略;再利用大型語言模型(LLM)作為「評分員」,以0.0至1.0分制,依據事實準確性、來源引用、完整性、工具效率等維度進行評估,與人工一致性高。
人工評估則可補足LLM難察覺的模型幻覺、偏見與結構性錯誤。團隊特別強調,即使在高度自動化流程下,人工質控仍是不可取代的安全機制。
多智能體系統的「涌現行為」往往難以預測,小變動可能引發「蝴蝶效應」。為此,Claude團隊設計了錯誤恢復機制,允許系統從錯誤發生處回復,並結合重試邏輯與定期檢查點。
為保證部署穩定,團隊採用「彩虹部署」策略分批引導流量至新版本,避免中斷現有運行。對於代理行為異常,也實施結構性決策追蹤,觀察代理之間的互動方式與任務鏈路,以保持系統健壯性。
實現長時任務協同
在實際應用中,多智能體往往需完成數百輪任務對話。Claude團隊引入上下文摘要與外部記憶系統,主代理可記錄已完成進度並持續派發任務,子代理則透過將輸出寫入文件系統,減少「電話遊戲」式資訊傳遞失真,提升資訊保真度。
此結構尤其適用於代碼生成、報告撰寫與數據視覺化等高保真任務,避免訊息在多階段推理過程中因token限制而遺失。
Claude團隊坦言,從原型到穩定生產系統需克服巨大工程鴻溝。單一流程失敗可能導致智能體探索方向偏離,產生不可預期結果。因此,團隊持續建立可觀察性指標與追蹤機制,強化各代理之間的協作模式與策略一致性。
團隊也指出,多智能體系統尤其適合處理單一智能體無法處理的高價值任務。透過「智能分工」、「工具鏈整合」、「提示協作」與「策略共享」四大設計原則,實現真正具規模化、可靠性與智能度兼備的研究型AI系統。 (編輯部)