25.1 起步决策树

模型: gpt-5.4 (openai/gpt-5.4) 生成日期: 2026-04-01 书名: AI编码智能体章节: 第25章 — 构建你自己的智能体 Token 消耗: ~4,400 输入 + ~1,400 输出

如果你想构建自己的智能体，第一步不应该是罗列功能，而应该是画一棵决策树。功能清单会诱导你不断往系统里塞东西：更多工具、更多模型、更多模式、更多自动化。决策树则会逼你先回答一个更关键的问题：你到底要造什么样的系统？

这一章的重点不是赞叹 OpenCode、Oh-My-OpenCode 或 Claude Code 已经有多复杂，而是帮助你做出一个理性的起步架构。很多智能体项目不是死在实现能力不足，而是死在最开始的范围选择错误。

25.1.1 第一条分叉：Fork 现有宿主，还是从零开始？

对大多数团队来说，这是杠杆最大的一步。

如果你的主要创新点并不是宿主本身，而是编排、提示词、工作流、权限、技能系统或界面体验，那么基于现有宿主扩展通常更合理。比如以 OpenCode 为底座，你可以直接继承对话循环、模型接入、工具接口、会话处理，很多时候连 MCP（Model Context Protocol，可理解为模型与外部工具之间的标准连接协议）也已经具备。这样能省下几个月基础设施时间。

只有在你能明确说出“现有宿主在哪些架构前提上与我冲突”时，从零开始才值得。比如你要做的是极简本地智能体，不希望有太多抽象层；或者你的目标场景非常窄，不是通用软件工程，而是固件修复、基础设施值班手册、合同审阅之类的专门工作流；又或者宿主对于工具系统、会话模型、界面结构的假设会直接妨碍你。

一个实用判断是：如果现有宿主对你是“70% 加速，30% 束缚”，就拿来用；如果是“30% 加速，70% 束缚”，就重建。

25.1.2 第二条分叉：单模型深耕，还是多模型并行？

第二个核心问题是模型策略。

单模型深耕，是指围绕一个主模型族做深入优化。你的提示词、工具描述、上下文压缩、重试逻辑、输出格式，都会针对它调优。这样往往最容易在早期做出强体验。很多后来支持多模型的系统，起点其实也是这种方式。

多模型并行，则意味着你从一开始就做 provider（模型提供方）抽象和 capability（能力）抽象。听起来更通用，但代价很高。不同模型在工具调用稳定性、上下文长度、价格、延迟、多步指令服从性上差异很大。一个过早设计出来的统一抽象层，很容易变成 lowest common denominator（最低公分母）：谁都能兼容一点，但谁都没被真正优化好。

如果你当前目标是验证体验质量，先单模型；如果你做的是平台型基础设施，多模型可以更早考虑。即便如此，也最好先选一个主模型作为优化基准。所谓“支持很多模型”，并不等于“在任何模型上都表现优秀”。