模型: openai/gpt-5.4
生成日期: 2026-04-01
书名: Claude Code VS OpenCode：架构、设计与未来
章节: 第21章 — 多智能体编排的艺术
Token用量: 约 6,100 input + 1,980 output

21.2 何时使用多智能体

很多团队采用多智能体，不是因为真的需要，而是因为它看起来更先进。这是一个常见误区。多智能体不是免费午餐。它会增加 token 开销、编排复杂度、结果合并成本，以及调试难度。因此，真正该问的问题不是“能不能上多智能体”，而是“拆分收益是否大于协调成本”。

先看最现实的一层：经济学。对编码智能体来说，单智能体一次完整运行，本身就可能消耗不少上下文。只要再加一两个专门子智能体，整体成本通常就会上升到单智能体的 约 4 倍 左右，因为你不仅要支付子任务本身的推理成本，还要支付任务拆解、上下文打包、结果总结、回传整合这些额外成本。如果进一步做并行探索、独立验证、外部资料检索，多智能体总成本很容易达到简单单轮执行的 约 15 倍。这里的 4x 和 15x 不是数学定律，而是工程上足够有指导意义的数量级。它告诉我们：多智能体是一种高成本、高潜力的能力，不应被轻易默认启用。

但“成本高”并不等于“不值得”。关键在于任务是否处在值得花这笔钱的区间。一般来说，四类任务最适合多智能体。

第一类，是单一上下文装不下的任务。例如超大 monorepo 检索、跨服务调用链定位、多子系统架构追踪。这里单智能体最常见的问题不是不会思考，而是搜集证据太贵，导致真正分析空间不够。

第二类，是天然适合并行的任务。例如多个假设同时排查、多个设计方案同时展开、多个文档来源同时核对。只要子问题之间相对独立，多智能体的并行优势就能释放。

第三类，是认知模式混杂的任务。比如既要只读检查，又要查外部文档，还要做深实现，还要做安全审核。这些工作不是一个“思维姿势”能高效完成的。此时，把不同 cognitive mode（认知工作模式）拆给不同 agent，往往更合理。

第四类，是任务价值足够高。这里的“价值”不是抽象价值观，而是工程价值：答错的代价大、返工成本高、等待时间昂贵、或者影响面广。高价值任务更能 justify（证明值得）高成本编排。

Anthropic 的研究给了一个很强的信号：在适合拆分的问题上，多智能体可能不是线性改进，而是台阶式提升。在一项经常被引用的结果中，Anthropic 的多智能体研究系统在某类信息查找任务上取得了大约 90.2% 的改进。这个数字当然不能机械套用到所有编码任务上，但它说明了一个核心事实：当问题的瓶颈不只是“推理深度”，而是“证据覆盖”和“多路径检索”时，多智能体真的可能显著更强。

为什么？因为复杂任务经常卡在 evidence coverage（证据覆盖度）上。单智能体往往要一边搜、一边想、一边总结，很容易在某条路径上过早收敛。多智能体则可以让一个 agent 搜仓库，一个 agent 查文档，一个 agent 比较方案，一个父 agent 做综合。问题从“一个脑子串行做所有事情”，变成“多个有边界的脑子并行采证，最后由一个负责主体整合”。这类结构在宽任务空间里天然更占优。

不过，普通任务不应该默认多智能体。小范围代码修改、局部 bug fix、单文件文档更新、直接命令执行，这些场景通常单智能体更合适。原因很简单：便宜、快、可审计。多智能体在这些任务上反而会引入新的失败模式：重复搜索、输出互相矛盾、父 agent 被摘要噪音淹没、结果整合失误。一个 mediocre orchestration（平庸编排）完全可能比一次强单智能体执行更差。

因此，可以把决策过程写成一个很工程化的框架：

估算任务价值：错了或慢了，代价有多大？
估算拆分收益：子任务之间是否真的能独立推进，从而提升覆盖面？
估算协调开销：编排会增加多少 token、延迟和管理复杂度？
估算整合风险：多个结果是否容易合并，还是很可能互相冲突？

只有当拆分带来的预期收益明显高于这些成本时，多智能体才值得启用。

这也是为什么好的系统越来越重视“触发条件”而不是“信仰”。OMO 的 category system（类别系统）之所以重要，部分原因就在于它不是把所有任务都提升到最高编排级别，而是根据任务语义决定何时值得调用更重的 agent 结构。Claude Code 更收敛的 task 模型，也体现了类似判断：子智能体有价值，但不是每个请求都应该演化成一个分布式系统。

还有一个常被忽视的人类因素：多智能体容易制造“严谨幻觉”。因为它会产出更多中间文本——计划、子报告、通知、总结——看起来像经过多轮论证。但文本变多，不等于事实变多。真正该看的，不是系统动用了多少 agent，而是它是否在质量、覆盖度、可靠性上提供了足够大的增益，值得付出那笔账单。

因此，实务上可以有一条很管用的经验法则：默认单智能体，只有当单智能体的失败模式已经显现时，才升级到多智能体。 这些失败模式包括：上下文装不下、重复搜不到关键点、一个线程里混着太多不同性质的工作、或者需要独立验证。换句话说，多智能体通常应该是对复杂性的响应，而不是为了显得“高级”而预先铺开的戏剧舞台。

未来模型会更便宜、编排会更成熟，但这个经济原则不会消失。每多一个 agent，就多一份机会，也多一份税。Anthropic 的 90.2% 结果告诉我们：在某些任务上，这笔税值得交；4x 与 15x 的现实则提醒我们：别把这种高阶结构浪费在低价值问题上。

真正成熟的构建者不会迷信多智能体。他们只在任务足够大、足够贵、足够复杂、足够需要并行证据的时候，才动用它。

Keyboard shortcuts

Claude Code VS OpenCode：架构、设计与未来

21.2 何时使用多智能体