25.4 度量什么

模型: gpt-5.4 (openai/gpt-5.4) 生成日期: 2026-04-01 书名: AI编码智能体章节: 第25章 — 构建你自己的智能体 Token 消耗: ~4,300 输入 + ~1,430 输出

如果你要自己构建 coding agent，度量体系就是乐观叙事和真实能力之间的分界线。很多团队会花大量时间调提示词、调工具、调编排，然后用一种很松散的方式判断进展：比如感觉更聪明了、昨天演示效果不错、最近做成了几个任务。这远远不够。

你需要一组足够紧凑、但能覆盖有用性、可靠性、成本和人工负担的指标。对早期 coding agent 来说，最重要的四个指标是：SWE-bench 基线、任务完成率、人工介入频率、单任务 Token 成本。

25.4.1 先有一个共享基线：SWE-bench

SWE-bench 当然不是全部，但它是一个很有价值的锚点。它提供的是 grounded（落在真实仓库和真实 issue 修复上的）软件工程任务。即便你的内部工作负载和它不完全一样，像 SWE-bench 这样的基准也能给你一个外部参照。

它的意义不是让你为了刷榜而牺牲产品价值，而是防止自我欺骗。如果你的智能体在仓库内修复类任务上，比一个中等基线还差很多，那说明有问题；如果你改了工具或提示词后，基准表现明显提升，那也是信号。

因此，更好的理解方式是：把 SWE-bench 当作 calibration instrument（校准仪器），而不是把它当作完整地图。

对真实可用性来说，最重要的指标通常是 task completion rate（任务完成率）：系统有多大概率能在允许的流程内，正确完成被分配的任务。

这里的完成必须定义清楚，不能等同于输出了一段答案。根据任务类型，完成通常意味着改对了文件、测试或检查通过、没有引入被禁止的副作用、最终结果被人类审阅者接受。

为什么这个指标如此关键？因为 coding agent 是系统，不是单纯文本生成器。附带优雅解释的一份错误补丁，不算成功。任务完成率捕捉的是你真正关心的端到端属性。

第二个非常关键的指标，是 human intervention frequency（人工介入频率）：人需要多频繁地站出来解堵、纠偏、纠错、批准操作。

两个系统可能表面完成率差不多，但使用体验完全不同。一个系统大部分任务能自己跑通；另一个系统则需要用户不断补提示、重跑命令、修路径、回滚错误修改、手动做验证。

如果介入频率很高，这个系统未必真正降低了工作量，它只是把工作从写代码换成了监督智能体。

这个指标还可以细分：因安全确认产生的介入、因计划错误产生的介入、因工具失败产生的介入、因验证失败产生的介入、因上下文丢失或混乱产生的介入。

这些子类能帮助你看清摩擦到底出在哪一层。

第三个运维指标，是 token cost per task（单任务 Token 成本）。这个指标之所以重要，是因为智能体系统往往会在真正有效之前，先变得非常昂贵。更多工具、更长上下文、更多重试、更多委派、更冗长输出，都会持续推高 Token 消耗。

这里的成本应该按完整任务来算，而不是只算最后那次成功调用。探索、重试、失败分支、验证回路、总结压缩，如果有，都应该计入。否则你会系统性低估真实运行画像。

这个指标不只对商业产品重要，对内部工具同样重要。商业产品需要毛利纪律，内部工具需要预算可预测性。在两种场景下，无价值的 Token 燃烧都说明设计存在问题。

没有任何单一数字足以代表智能体质量。

对早期构建者来说，一个有用的仪表盘其实可以非常简单：SWE-bench 或内部基准通过率、真实任务完成率、平均每任务人工介入次数、平均每任务 Token 使用量与美元成本、顶部失败类别的简短分布。

这些就足够指导迭代。它能告诉你：系统是不是更有用、更自主、更省钱。

真正强的构建者，不只是问这个智能体看起来厉不厉害，而是问它在我关心的工作上，是否正在被可测量地改进。从讲故事走向可仪表化，是一个智能体项目真正开始成熟的明显标志。