Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

模型: openai/gpt-5.4
生成日期: 2026-04-01
书名: Claude Code VS OpenCode:架构、设计与未来
章节: 第21章 — 多智能体编排的艺术
Token用量: 约 6,100 input + 1,980 output

21.2 何时使用多智能体

很多团队采用多智能体,不是因为真的需要,而是因为它看起来更先进。这是一个常见误区。多智能体不是免费午餐。它会增加 token 开销、编排复杂度、结果合并成本,以及调试难度。因此,真正该问的问题不是“能不能上多智能体”,而是“拆分收益是否大于协调成本”。

先看最现实的一层:经济学。对编码智能体来说,单智能体一次完整运行,本身就可能消耗不少上下文。只要再加一两个专门子智能体,整体成本通常就会上升到单智能体的 约 4 倍 左右,因为你不仅要支付子任务本身的推理成本,还要支付任务拆解、上下文打包、结果总结、回传整合这些额外成本。如果进一步做并行探索、独立验证、外部资料检索,多智能体总成本很容易达到简单单轮执行的 约 15 倍。这里的 4x 和 15x 不是数学定律,而是工程上足够有指导意义的数量级。它告诉我们:多智能体是一种高成本、高潜力的能力,不应被轻易默认启用。

但“成本高”并不等于“不值得”。关键在于任务是否处在值得花这笔钱的区间。一般来说,四类任务最适合多智能体。

第一类,是单一上下文装不下的任务。例如超大 monorepo 检索、跨服务调用链定位、多子系统架构追踪。这里单智能体最常见的问题不是不会思考,而是搜集证据太贵,导致真正分析空间不够。

第二类,是天然适合并行的任务。例如多个假设同时排查、多个设计方案同时展开、多个文档来源同时核对。只要子问题之间相对独立,多智能体的并行优势就能释放。

第三类,是认知模式混杂的任务。比如既要只读检查,又要查外部文档,还要做深实现,还要做安全审核。这些工作不是一个“思维姿势”能高效完成的。此时,把不同 cognitive mode(认知工作模式)拆给不同 agent,往往更合理。

第四类,是任务价值足够高。这里的“价值”不是抽象价值观,而是工程价值:答错的代价大、返工成本高、等待时间昂贵、或者影响面广。高价值任务更能 justify(证明值得)高成本编排。

Anthropic 的研究给了一个很强的信号:在适合拆分的问题上,多智能体可能不是线性改进,而是台阶式提升。在一项经常被引用的结果中,Anthropic 的多智能体研究系统在某类信息查找任务上取得了大约 90.2% 的改进。这个数字当然不能机械套用到所有编码任务上,但它说明了一个核心事实:当问题的瓶颈不只是“推理深度”,而是“证据覆盖”和“多路径检索”时,多智能体真的可能显著更强。

为什么?因为复杂任务经常卡在 evidence coverage(证据覆盖度)上。单智能体往往要一边搜、一边想、一边总结,很容易在某条路径上过早收敛。多智能体则可以让一个 agent 搜仓库,一个 agent 查文档,一个 agent 比较方案,一个父 agent 做综合。问题从“一个脑子串行做所有事情”,变成“多个有边界的脑子并行采证,最后由一个负责主体整合”。这类结构在宽任务空间里天然更占优。

不过,普通任务不应该默认多智能体。小范围代码修改、局部 bug fix、单文件文档更新、直接命令执行,这些场景通常单智能体更合适。原因很简单:便宜、快、可审计。多智能体在这些任务上反而会引入新的失败模式:重复搜索、输出互相矛盾、父 agent 被摘要噪音淹没、结果整合失误。一个 mediocre orchestration(平庸编排)完全可能比一次强单智能体执行更差。

因此,可以把决策过程写成一个很工程化的框架:

  1. 估算任务价值:错了或慢了,代价有多大?
  2. 估算拆分收益:子任务之间是否真的能独立推进,从而提升覆盖面?
  3. 估算协调开销:编排会增加多少 token、延迟和管理复杂度?
  4. 估算整合风险:多个结果是否容易合并,还是很可能互相冲突?

只有当拆分带来的预期收益明显高于这些成本时,多智能体才值得启用。

这也是为什么好的系统越来越重视“触发条件”而不是“信仰”。OMO 的 category system(类别系统)之所以重要,部分原因就在于它不是把所有任务都提升到最高编排级别,而是根据任务语义决定何时值得调用更重的 agent 结构。Claude Code 更收敛的 task 模型,也体现了类似判断:子智能体有价值,但不是每个请求都应该演化成一个分布式系统。

还有一个常被忽视的人类因素:多智能体容易制造“严谨幻觉”。因为它会产出更多中间文本——计划、子报告、通知、总结——看起来像经过多轮论证。但文本变多,不等于事实变多。真正该看的,不是系统动用了多少 agent,而是它是否在质量、覆盖度、可靠性上提供了足够大的增益,值得付出那笔账单。

因此,实务上可以有一条很管用的经验法则:默认单智能体,只有当单智能体的失败模式已经显现时,才升级到多智能体。 这些失败模式包括:上下文装不下、重复搜不到关键点、一个线程里混着太多不同性质的工作、或者需要独立验证。换句话说,多智能体通常应该是对复杂性的响应,而不是为了显得“高级”而预先铺开的戏剧舞台。

未来模型会更便宜、编排会更成熟,但这个经济原则不会消失。每多一个 agent,就多一份机会,也多一份税。Anthropic 的 90.2% 结果告诉我们:在某些任务上,这笔税值得交;4x 与 15x 的现实则提醒我们:别把这种高阶结构浪费在低价值问题上。

真正成熟的构建者不会迷信多智能体。他们只在任务足够大、足够贵、足够复杂、足够需要并行证据的时候,才动用它。