24.4 未解决的挑战

模型: gpt-5.4 (openai/gpt-5.4) 生成日期: 2026-04-01 书名: AI编码智能体章节: 第24章 — 未来展望 Token 消耗: N/A（当前运行环境不暴露精确 token 统计）

Coding Agent 虽然进步很快，但真正困难的问题其实还在前面。下一阶段的突破，不会只是输出更流畅，而是解决那些阻止团队把 Agent 用在更大范围工程任务上的可靠性问题。其中有四个挑战尤其关键：跨会话记忆、一致性重构、成本可预测性、以及 智能体之间的信任。

24.4.1 跨会话记忆：既要记得住，又不能记错

今天的大多数 Agent 仍然主要擅长“单会话任务”。一旦上下文窗口结束，或者任务跨越数天，连续性就会迅速变脆弱。系统可能忘掉为什么要做某个设计决策，也可能重复已经失败过的方案，或者把不重要的细节记得很牢，却丢失真正关键的上下文。

很多人会觉得：跨会话记忆不就是把笔记存下来吗？但真正难点在于，记忆必须同时满足“持久”和“选择性”。存得太少，会失去上下文；存得太多，会堆积噪声；总结错了，又会把未来的工作锚定在错误前提上。

因此，真正可用的长期记忆需要：

重要性排序；
过期机制；
可纠正能力；
来源记录；
不确定性标注。

“来源记录”这个说法对应英文里的 provenance，在传统 CS 教材里不算高频术语。这里可以理解为“某条记忆来自哪里、依据是什么、可信度如何”的追踪信息。没有 provenance，记忆就容易从“有帮助的历史”变成“难以质疑的幻觉”。

24.4.2 一致性重构：局部会改不等于全局会改

Agent 今天已经很会做局部修改，但在大仓库里保持一致性，仍然远没有成熟。一次广泛重构会同时考验命名纪律、符号追踪、依赖理解、测试判断和停止条件。真正难的不是“能不能把一个名字改掉”，而是“能不能把所有受影响的语义边界都正确更新，并知道哪些地方还没有被充分验证”。

这要求系统具备更强的语义工具、更好的增量规划能力，以及更诚实的置信度表达。未来理想状态下，Agent 不只是说“我改完了”，而应该能说：

我修改了哪些文件；
我验证了哪些代码路径；
我确认了哪些接口边界；
哪些区域仍存在不确定性；
这些不确定性为什么无法在当前上下文内彻底消除。

在这种能力成熟之前，仓库级重构仍然会高度依赖人工监督。

24.4.3 成本可预测性：不仅要能做，还要知道值不值

另一个经常被低估的问题是成本可预测性。人类工程师做任务时，虽然也不精确，但通常能大致估计工作时长。Agent 系统则更难预测。一个看起来简单的任务，可能因为反复搜索、重复验证、错误分支、多智能体并发和上下文膨胀，变成高成本执行。

所以组织真正需要的不只是 token 账单，而是一套经济控制能力，包括：

任务级预算；
任务开始前的成本估计；
按难度动态切换模型；
当继续执行已不划算时及时停止；
事后可归因的成本统计。

这里的“可归因”并非传统教材里的固定术语，可以理解为“花掉的成本最终能追溯到哪个任务、哪个子步骤、哪个智能体、哪类工具调用”。如果做不到这一点，组织就很难把 Agent 纳入稳定的生产预算体系。

24.4.4 智能体之间的信任：多智能体不是天然更好

随着系统越来越多地采用 multi-agent（多智能体）模式，一个新问题会出现：智能体应该如何彼此信任？ 一个子智能体负责探索，一个负责修改，一个负责验证，听起来效率很高。但如果主智能体无法判断子智能体输出的质量，那么并行化只会制造更多噪声，而不是更多价值。

智能体之间的信任不能只靠自然语言摘要，还需要更明确的协议，例如：

当初接到了什么任务；
使用了哪些证据；
读了哪些文件；
改了哪些文件；
哪些结论是确定的；
哪些结论仍然不确定；
置信度是根据什么得出的。

只有这样，多智能体系统中的 delegation（委派）才不是“把问题扔出去”，而是“把一个可审计、可集成的子任务交给其他执行者”。这对强调编排的系统尤其重要。

24.4.5 所有问题最终都指向验证瓶颈

上述四个挑战其实都指向同一个更深层问题：验证能力落后于生成能力。Agent 今天生成候选方案的速度，远快于证明这些方案可靠的速度。

跨会话记忆会出错，是因为记忆摘要缺乏强验证；一致性重构会失败，是因为语义一致性检查不够强；成本会失控，是因为缺乏与价值绑定的停止规则；多智能体容易失真，是因为子结果没有被强约束地验证。

行业经常把问题说成“推理能力还不够”，但很多时候更准确的说法是：验证架构还不够成熟。

对于记忆：项目日志、决策记录、带不确定性标记的长期笔记、按权威性和时效性检索的记忆系统。对于重构：符号级工具、依赖影响面分析、在修改前先自动生成 impact set（影响集合）。impact set 不是教科书高频词，这里可理解为“某项改动理论上会波及的文件、接口、测试与运行路径集合”。对于成本：预算感知计划、先用便宜模型探索、必要时再升级大模型、执行后透明计费。对于多智能体：类型化输出、证据包、置信字段以及主智能体的裁决层。

这些东西都不炫目，但它们很可能决定下一代产品谁能真正落地。

24.4.7 最终难题是“校准后的信任”

归根结底，用户并不要求 Agent 永远完美。用户真正需要的是一种 calibrated trust。这个词可以译为“校准后的信任”，意思不是盲目信任，而是“系统的能力边界、可靠程度和不确定性能够被相对准确地判断”。

如果系统能让人知道：什么时候大概率正确，什么时候只是猜测，什么时候必须升级人工介入，那么很多风险都能被管理。跨会话记忆、一致性重构、成本控制和智能体协作，最终都收敛到这一点。

因此，这些挑战之所以重要，不是因为它们是边缘问题，而是因为它们决定 Coding Agent 最终停留在“好用的助手”，还是进化成“可以承担较大工程责任的系统”。未来竞争的关键，不只是让 Agent 看起来更聪明，而是让它的行为更可测量、更有边界，也更值得信任。

Claude Code VS OpenCode：架构、设计与未来