25.4 度量什么
模型: gpt-5.4 (openai/gpt-5.4) 生成日期: 2026-04-01 书名: AI编码智能体 章节: 第25章 — 构建你自己的智能体 Token 消耗: ~4,300 输入 + ~1,430 输出
如果你要自己构建 coding agent,度量体系就是乐观叙事和真实能力之间的分界线。很多团队会花大量时间调提示词、调工具、调编排,然后用一种很松散的方式判断进展:比如感觉更聪明了、昨天演示效果不错、最近做成了几个任务。这远远不够。
你需要一组足够紧凑、但能覆盖有用性、可靠性、成本和人工负担的指标。对早期 coding agent 来说,最重要的四个指标是:SWE-bench 基线、任务完成率、人工介入频率、单任务 Token 成本。
25.4.1 先有一个共享基线:SWE-bench
SWE-bench 当然不是全部,但它是一个很有价值的锚点。它提供的是 grounded(落在真实仓库和真实 issue 修复上的)软件工程任务。即便你的内部工作负载和它不完全一样,像 SWE-bench 这样的基准也能给你一个外部参照。
它的意义不是让你为了刷榜而牺牲产品价值,而是防止自我欺骗。如果你的智能体在仓库内修复类任务上,比一个中等基线还差很多,那说明有问题;如果你改了工具或提示词后,基准表现明显提升,那也是信号。
因此,更好的理解方式是:把 SWE-bench 当作 calibration instrument(校准仪器),而不是把它当作完整地图。
25.4.2 重点测任务完成率,而不是只看输出质量
对真实可用性来说,最重要的指标通常是 task completion rate(任务完成率):系统有多大概率能在允许的流程内,正确完成被分配的任务。
这里的完成必须定义清楚,不能等同于输出了一段答案。根据任务类型,完成通常意味着改对了文件、测试或检查通过、没有引入被禁止的副作用、最终结果被人类审阅者接受。
为什么这个指标如此关键?因为 coding agent 是系统,不是单纯文本生成器。附带优雅解释的一份错误补丁,不算成功。任务完成率捕捉的是你真正关心的端到端属性。
25.4.3 度量人工介入频率
第二个非常关键的指标,是 human intervention frequency(人工介入频率):人需要多频繁地站出来解堵、纠偏、纠错、批准操作。
两个系统可能表面完成率差不多,但使用体验完全不同。一个系统大部分任务能自己跑通;另一个系统则需要用户不断补提示、重跑命令、修路径、回滚错误修改、手动做验证。
如果介入频率很高,这个系统未必真正降低了工作量,它只是把工作从写代码换成了监督智能体。
这个指标还可以细分:因安全确认产生的介入、因计划错误产生的介入、因工具失败产生的介入、因验证失败产生的介入、因上下文丢失或混乱产生的介入。
这些子类能帮助你看清摩擦到底出在哪一层。
25.4.4 度量单任务 Token 成本
第三个运维指标,是 token cost per task(单任务 Token 成本)。这个指标之所以重要,是因为智能体系统往往会在真正有效之前,先变得非常昂贵。更多工具、更长上下文、更多重试、更多委派、更冗长输出,都会持续推高 Token 消耗。
这里的成本应该按完整任务来算,而不是只算最后那次成功调用。探索、重试、失败分支、验证回路、总结压缩,如果有,都应该计入。否则你会系统性低估真实运行画像。
这个指标不只对商业产品重要,对内部工具同样重要。商业产品需要毛利纪律,内部工具需要预算可预测性。在两种场景下,无价值的 Token 燃烧都说明设计存在问题。
25.4.5 不只看总量,更要看比例关系
很多时候,原始数字没有标准化后的视图有用。你可以优先看这些比率:各类任务的完成率、每个成功任务消耗多少 Token、每个成功任务平均需要多少次人工介入、成本相对于节省的人类时间是否划算。
这些比率能帮助你区分贵但有效和贵且混乱,也能避免被少量精挑细选任务误导。
25.4.6 加一点内部追踪,才能知道为什么失败
上面四个核心指标告诉你系统是否在进步;要理解为什么进步或为什么退化,你还需要加一些轻量追踪:工具调用次数、重试次数、验证失败次数、失败时的上下文大小、最常见的终止原因。
你不需要一开始就搭一个庞大的可观测性平台,但你至少要有足够的信息,解释一项任务为什么失败,或者一次成本为什么突然飙高。
25.4.7 警惕 Goodhart 定律
Goodhart’s Law(古德哈特定律)的意思是:当一个指标变成目标,它往往就不再是一个好指标。智能体系统尤其如此。若只优化 benchmark 分数,你可能对任务分布过拟合;若只优化低 Token 成本,你可能把验证砍得过头;若只优化低人工介入,你可能会让系统在不安全的情况下越权执行。
因此,这四个指标必须合起来看,它们共同形成一种平衡:基准校准、真实完成、人类负担、运行成本。
没有任何单一数字足以代表智能体质量。
25.4.8 一个早期好仪表盘应该长什么样
对早期构建者来说,一个有用的仪表盘其实可以非常简单:SWE-bench 或内部基准通过率、真实任务完成率、平均每任务人工介入次数、平均每任务 Token 使用量与美元成本、顶部失败类别的简短分布。
这些就足够指导迭代。它能告诉你:系统是不是更有用、更自主、更省钱。
真正强的构建者,不只是问这个智能体看起来厉不厉害,而是问它在我关心的工作上,是否正在被可测量地改进。从讲故事走向可仪表化,是一个智能体项目真正开始成熟的明显标志。