Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

模型: openai/gpt-5.4
生成日期: 2026-04-01
书名: Claude Code VS OpenCode:架构、设计与未来
章节: 第15章 — 智能体编排对比
Token用量: 约 5,100 input + 1,300 output

15.2 单智能体 vs 多智能体

“一个强模型单干”与“多个智能体协作”之间的争论,已经成了 2025–2026 年 agent 设计里最核心的话题之一。问题的关键并不是单智能体能不能完成任务。很多时候它当然能。真正的问题是:把认知过程拆散到多个上下文里,带来的质量提升,值不值得额外的 token 成本、等待时间和编排复杂度?

Anthropic 给过一个非常有代表性的结论:multi-agent Opus+Sonnet 系统达到 90.2%,优于单个 Opus agent。这个数字之所以重要,不只是因为它高,而是因为它证明了一件事:在复杂任务上,更好的编排结构可以弥补甚至超越单线程推理的上限。换句话说,scaffolding(脚手架式系统结构)不是装饰,它会直接改变智能体的能力边界。

为什么多智能体会更强?根本原因是单个上下文需要同时承担四类不同工作:理解任务、搜索信息、执行修改、自我校验。这些工作之间会互相干扰。搜索阶段引入大量噪声,执行阶段占据局部细节,校验阶段又容易被前面自己的推理路径绑架。多智能体的价值,就在于把这些认知负担拆开:有人专门搜索,有人专门规划,有人专门执行,有人专门验证。

OpenCode 的风格比较接近“强单智能体 + 可扩展底座”。它的好处是清晰、节省、容易理解。一个 session 里调用工具、观察结果、继续推进,往往已经足够解决中小型仓库中的大量任务。单智能体模式的优势非常真实:token 成本低、结果链路短、调试容易、责任清晰。它失败时,也更容易知道问题出在哪一段。

OMO 的判断则更激进一些。它认为,单智能体在简单任务上确实足够,但在大仓库搜索、复杂依赖分析、需要外部资料核对、长周期执行这类任务上,单上下文很容易陷入“既要搜索,又要执行,还要记住所有中间状态”的困境。所以 OMO 会更积极地进入多智能体模式:Explore 去找,Oracle 只读分析,Librarian 查外部资料,父会话负责整合。这是一种典型的“用更多 token 换取更稳定问题分解”的策略。

Claude Code 走的是中间路线。它没有像 OMO 那样把多角色编排做得那么外显和制度化,但它明显承认多智能体/子任务是必要能力。DreamTask 这类后台任务体验,实际上改变了用户与系统的关系:不再只是“你现在回答我”,而是“你去做一件事,稍后带着结果回来”。这已经是协作式工作流,而不是纯聊天。

当然,成本问题避不开。多智能体系统非常容易达到 10 倍甚至 15 倍 token 成本。原因很简单:每个子智能体都有 prompt、上下文摘要、任务说明、结果回传,父智能体还要阅读、整合、校验。如果再加上并行探索、重复验证、失败重试,成本会进一步放大。

那什么时候值得付这 15 倍成本?通常有五种情况。

第一,搜索空间很大。如果相关信息散落在几十个文件甚至多个模块里,单智能体串行搜索的成本可能更高,而且容易漏。

第二,任务类型异质。这里“异质”是一个教材里常见但在日常语境不一定直观的词,意思是“性质不一样”。外部资料查找、代码修改、架构推理、安全审查,本来就是不同类型的工作,把它们塞进一个上下文会互相污染。

第三,错误代价高。例如权限系统改造、安全补丁、发布前修复,这类任务宁可更贵,也要更稳。

第四,任务时间跨度长。长任务会积累很多不再有用的局部信息,让单智能体上下文越来越浑浊。

第五,子任务确实可以并行。如果多个子任务彼此独立,多智能体收益会很明显;如果它们高度耦合,那并行只会制造协调成本。

反过来讲,在以下场景,多智能体往往不值:小改动、单文件 bugfix、很明确的重命名、边界清晰的格式修复。这些任务如果硬上多智能体,常常只是“编排表演”——看起来很高级,实际上在烧 token。

多智能体还有治理问题。角色权限怎么定?什么时候停止?结果如何合并?如何避免两个 agent 做重复劳动?OMO 在这方面更系统,它用角色限制、后台并发上限、hook 和流程纪律来约束。Claude Code 更像把这些治理逻辑做进产品交互。OpenCode 则更多把责任交给开发者和扩展层。

所以,真正有价值的结论并不是“单智能体好”或“多智能体好”,而是:系统应当具备按任务结构自适应升级的能力。默认用单智能体处理便宜、简单、边界清晰的任务;当任务表现出高搜索广度、高风险、高异质性、高并行性时,再升级到多智能体。Anthropic 的 90.2% 结果告诉我们:多智能体可以显著更强。但它没有告诉我们应该把每一个任务都变成多智能体。

最好的系统,不是永远喜欢派很多 agent,而是知道什么时候不需要。