Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

24.4 未解决的挑战

模型: gpt-5.4 (openai/gpt-5.4) 生成日期: 2026-04-01 书名: AI编码智能体 章节: 第24章 — 未来展望 Token 消耗: N/A(当前运行环境不暴露精确 token 统计)


Coding Agent 虽然进步很快,但真正困难的问题其实还在前面。下一阶段的突破,不会只是输出更流畅,而是解决那些阻止团队把 Agent 用在更大范围工程任务上的可靠性问题。其中有四个挑战尤其关键:跨会话记忆一致性重构成本可预测性、以及 智能体之间的信任

24.4.1 跨会话记忆:既要记得住,又不能记错

今天的大多数 Agent 仍然主要擅长“单会话任务”。一旦上下文窗口结束,或者任务跨越数天,连续性就会迅速变脆弱。系统可能忘掉为什么要做某个设计决策,也可能重复已经失败过的方案,或者把不重要的细节记得很牢,却丢失真正关键的上下文。

很多人会觉得:跨会话记忆不就是把笔记存下来吗?但真正难点在于,记忆必须同时满足“持久”和“选择性”。存得太少,会失去上下文;存得太多,会堆积噪声;总结错了,又会把未来的工作锚定在错误前提上。

因此,真正可用的长期记忆需要:

  • 重要性排序;
  • 过期机制;
  • 可纠正能力;
  • 来源记录;
  • 不确定性标注。

“来源记录”这个说法对应英文里的 provenance,在传统 CS 教材里不算高频术语。这里可以理解为“某条记忆来自哪里、依据是什么、可信度如何”的追踪信息。没有 provenance,记忆就容易从“有帮助的历史”变成“难以质疑的幻觉”。

24.4.2 一致性重构:局部会改不等于全局会改

Agent 今天已经很会做局部修改,但在大仓库里保持一致性,仍然远没有成熟。一次广泛重构会同时考验命名纪律、符号追踪、依赖理解、测试判断和停止条件。真正难的不是“能不能把一个名字改掉”,而是“能不能把所有受影响的语义边界都正确更新,并知道哪些地方还没有被充分验证”。

这要求系统具备更强的语义工具、更好的增量规划能力,以及更诚实的置信度表达。未来理想状态下,Agent 不只是说“我改完了”,而应该能说:

  • 我修改了哪些文件;
  • 我验证了哪些代码路径;
  • 我确认了哪些接口边界;
  • 哪些区域仍存在不确定性;
  • 这些不确定性为什么无法在当前上下文内彻底消除。

在这种能力成熟之前,仓库级重构仍然会高度依赖人工监督。

24.4.3 成本可预测性:不仅要能做,还要知道值不值

另一个经常被低估的问题是成本可预测性。人类工程师做任务时,虽然也不精确,但通常能大致估计工作时长。Agent 系统则更难预测。一个看起来简单的任务,可能因为反复搜索、重复验证、错误分支、多智能体并发和上下文膨胀,变成高成本执行。

所以组织真正需要的不只是 token 账单,而是一套经济控制能力,包括:

  • 任务级预算;
  • 任务开始前的成本估计;
  • 按难度动态切换模型;
  • 当继续执行已不划算时及时停止;
  • 事后可归因的成本统计。

这里的“可归因”并非传统教材里的固定术语,可以理解为“花掉的成本最终能追溯到哪个任务、哪个子步骤、哪个智能体、哪类工具调用”。如果做不到这一点,组织就很难把 Agent 纳入稳定的生产预算体系。

24.4.4 智能体之间的信任:多智能体不是天然更好

随着系统越来越多地采用 multi-agent(多智能体)模式,一个新问题会出现:智能体应该如何彼此信任? 一个子智能体负责探索,一个负责修改,一个负责验证,听起来效率很高。但如果主智能体无法判断子智能体输出的质量,那么并行化只会制造更多噪声,而不是更多价值。

智能体之间的信任不能只靠自然语言摘要,还需要更明确的协议,例如:

  • 当初接到了什么任务;
  • 使用了哪些证据;
  • 读了哪些文件;
  • 改了哪些文件;
  • 哪些结论是确定的;
  • 哪些结论仍然不确定;
  • 置信度是根据什么得出的。

只有这样,多智能体系统中的 delegation(委派)才不是“把问题扔出去”,而是“把一个可审计、可集成的子任务交给其他执行者”。这对强调编排的系统尤其重要。

24.4.5 所有问题最终都指向验证瓶颈

上述四个挑战其实都指向同一个更深层问题:验证能力落后于生成能力。Agent 今天生成候选方案的速度,远快于证明这些方案可靠的速度。

跨会话记忆会出错,是因为记忆摘要缺乏强验证;一致性重构会失败,是因为语义一致性检查不够强;成本会失控,是因为缺乏与价值绑定的停止规则;多智能体容易失真,是因为子结果没有被强约束地验证。

行业经常把问题说成“推理能力还不够”,但很多时候更准确的说法是:验证架构还不够成熟。

24.4.6 可能的解法会是什么样

未来比较有希望的方案,大概率会包含几类模式。

对于记忆:项目日志、决策记录、带不确定性标记的长期笔记、按权威性和时效性检索的记忆系统。对于重构:符号级工具、依赖影响面分析、在修改前先自动生成 impact set(影响集合)。impact set 不是教科书高频词,这里可理解为“某项改动理论上会波及的文件、接口、测试与运行路径集合”。对于成本:预算感知计划、先用便宜模型探索、必要时再升级大模型、执行后透明计费。对于多智能体:类型化输出、证据包、置信字段以及主智能体的裁决层。

这些东西都不炫目,但它们很可能决定下一代产品谁能真正落地。

24.4.7 最终难题是“校准后的信任”

归根结底,用户并不要求 Agent 永远完美。用户真正需要的是一种 calibrated trust。这个词可以译为“校准后的信任”,意思不是盲目信任,而是“系统的能力边界、可靠程度和不确定性能够被相对准确地判断”。

如果系统能让人知道:什么时候大概率正确,什么时候只是猜测,什么时候必须升级人工介入,那么很多风险都能被管理。跨会话记忆、一致性重构、成本控制和智能体协作,最终都收敛到这一点。

因此,这些挑战之所以重要,不是因为它们是边缘问题,而是因为它们决定 Coding Agent 最终停留在“好用的助手”,还是进化成“可以承担较大工程责任的系统”。未来竞争的关键,不只是让 Agent 看起来更聪明,而是让它的行为更可测量、更有边界,也更值得信任。