长程智能体的航位推算：无需中断即可掌握智能体运行状态

2026年4月19日 · 阅读需 13 分钟

Software Engineer

在 GPS 出现之前，水手们使用推算定位法（dead reckoning）：取你最后一个确认的位置，记录你的速度和航向，然后向前推算。这种方法一直有效，直到累积的误差复合成不可逆转的后果——你没预料到的礁石。

!["https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E9%95%BF%E6%97%B6%E9%97%B4%E8%BF%90%E8%A1%8C%20Agent%20%E7%9A%84%E6%8E%A8%E7%AE%97%E5%AE%9A%E4%BD%8D%E6%B3%95%EF%BC%9A%E6%97%A0%E9%9C%80%E5%81%9C%E6%AD%A2%E5%8D%B3%E5%8F%AF%E4%BA%86%E8%A7%A3%20Agent%20%E7%9A%84%E4%BD%8D%E7%BD%AE"]

长时间运行的 AI Agent 正面临着完全相同的问题。当一个 Agent 花费两个小时协调 API 调用、编写文档并执行多步骤计划时，运行它的人通常并不比没有仪器的水手拥有更好的能见度。Agent 要么完成了，要么没完成。失败模式并不是崩溃——而是看似在工作却静默循环并烧掉 30 美元 token 的情况，或者是 Agent “成功”完成了错误的任务，因为它的世界模型在执行一小时后发生了偏移。

生产数据让这一点变得具体：据记录，未被发现的循环 Agent 在人工干预前曾重复相同的工具调用 58 次。按照前沿模型的费率，一个失控运行两小时的 Agent 在被察觉之前会耗费 15–40 美元。而最严重的失败并不是报错退出的那些——而是那 12–18% “成功”运行却返回看似合理实则错误答案的情况。

大多数团队采取的工程响应是日志。这是错误的工具。非结构化日志告诉你发生了什么；它们不会告诉你 Agent 在哪里，还要走多远，或者它所走的路径是否通向有意义的结果。你需要的是仪表，而不是黑匣子记录仪。

为什么 Agent 的进度难以衡量

困难不在于技术——而在于概念。传统软件以可计数的确定性步骤运行。一个包含 100 个数据库操作的任务，在执行 47 个操作后完成度就是 47%。Agent 的工作方式并非如此。

首先，任务范围在开始时通常是未知的。“研究这个主题并写一份报告”可能需要 20 次工具调用，也可能需要 200 次，这取决于 Agent 发现了什么。如果你不知道分母是多少，进度百分比就没有意义。

其次，Agent 可以在不产生明显向前推进的情况下保持高效。一个花费五分钟综合检索文档研究成果的 Agent 正在做有价值的工作，但从外部看，它与陷入循环的 Agent 看起来一模一样。区分这两者需要理解正在发生的内容，而不仅仅是知道有事情在发生。

第三，Agent 会重新考虑。一个在计划的 40 步任务中达到第 30 步，然后回溯修改其方法的 Agent 并没有坏——它可能正在做正确的事情。但对于观察步数的观察者来说，这看起来像是倒退。

METR 对长周期任务完成情况的研究显示，前沿模型能完成人类花费一定时间完成的任务的约 50%，以及耗时仅一半的任务的约 80%。这意味着：随着任务时长加倍，难度非线性增加，Agent 行为的差异性也是如此。任务越长，你越需要能够区分富有成效的挣扎与终结性偏移的仪器。

你真正需要的四种仪器

1. 结构化里程碑，而非日志行

第一种仪器是用结构化里程碑事件取代非结构化日志输出。Agent 每一个有意义的状态转换——开始研究阶段、完成综合步骤、决定修订计划——都应该发出一个机器可读的事件，其中包括 Agent 当前的目标、它刚刚做出的决定，以及它认为接下来的步骤。

这并不是为了冗长的日志记录。这是为了设计出能在决策边界将内部状态外部化的 Agent。事件格式至关重要，因为它能让你在下游构建仪表板、设置告警并计算进度指标。

一个知道自己已完成预计 23 个研究子任务中的 7 个的 Agent，其可观测性无限高于一个“已经运行了 40 分钟”的 Agent。里程碑结构迫使 Agent 显式地推理其自身的任务分解，这作为一个副作用，通常会提高计划质量——Agent 如果没有一个可供对照的计划，就无法发出里程碑。

2. 速度追踪

第二种仪器是追踪执行速度：Agent 在单位时间内完成了多少工作（根据近期步骤进行平滑处理）？

速度跌向零是“Agent 卡死综合症”最清晰的信号。它能捕捉到两种不同的失败模式：

硬循环：Agent 使用相同的输入调用相同的工具，并得到相同的输出。在这里速度不会下降——它甚至看起来高得不正常——但如果你对近期的 (tool-name, result-digest) 对进行指纹识别，并在一个窗口内发现 3 个以上相同的条目，那么你就遇到了循环。指纹识别方法之所以有效，是因为它捕捉的是内容层面的重复，而不仅仅是时间模式。

软停滞：Agent 继续执行，继续调用工具，但每一步产生的新信息都在递减。结果是新颖的，但并不能推动任务向前发展。追踪新信息速率（每个工具输出中有多少代表了 Agent 此前不具备的状态）的速度指标，能够将富有成效的工具使用与昂贵的噪音区分开来。

一个具体的阈值：如果速度在没有计划修订的情况下连续五步低于基准线的 20%，则进行升级处理。如果指纹识别的循环在十步窗口内出现三次，立即升级处理。

3. 置信度漂移检测

第三个工具追踪智能体在每个决策点的自我确定性。

大多数智能体架构都已经具备了置信度信号，即便它们没有被显式呈现：比如对下一步候选动作的注意力分布、智能体在提交步骤前生成的推理链长度，以及输出中模棱两可语言出现的频率。将这些信号形式化为数值化的置信度评估，并追踪其随时间的变化，可以为你提供方向性问题的早期预警系统。

在正常运行时，健康的智能体通常表现出 0.85 到 0.95 之间的置信度。有两种模式预示着麻烦：

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

长程智能体的航位推算：无需中断即可掌握智能体运行状态

为什么 Agent 的进度难以衡量

你真正需要的四种仪器

1. 结构化里程碑，而非日志行

2. 速度追踪

3. 置信度漂移检测

Recommended Reading

关于 Tian Pan

为什么 Agent 的进度难以衡量​

你真正需要的四种仪器​

1. 结构化里程碑，而非日志行​

2. 速度追踪​

3. 置信度漂移检测​

Recommended Reading

关于 Tian Pan

为什么 Agent 的进度难以衡量

你真正需要的四种仪器

1. 结构化里程碑，而非日志行

2. 速度追踪

3. 置信度漂移检测