跳到主要内容

长程智能体的航位推算:无需中断即可掌握智能体运行状态

· 阅读需 13 分钟
Tian Pan
Software Engineer

在 GPS 出现之前,水手们使用推算定位法(dead reckoning):取你最后一个确认的位置,记录你的速度和航向,然后向前推算。这种方法一直有效,直到累积的误差复合成不可逆转的后果——你没预料到的礁石。

!["https://opengraph-image.blockeden.xyz/api/og-tianpan-co?title=%E9%95%BF%E6%97%B6%E9%97%B4%E8%BF%90%E8%A1%8C%20Agent%20%E7%9A%84%E6%8E%A8%E7%AE%97%E5%AE%9A%E4%BD%8D%E6%B3%95%EF%BC%9A%E6%97%A0%E9%9C%80%E5%81%9C%E6%AD%A2%E5%8D%B3%E5%8F%AF%E4%BA%86%E8%A7%A3%20Agent%20%E7%9A%84%E4%BD%8D%E7%BD%AE"]

长时间运行的 AI Agent 正面临着完全相同的问题。当一个 Agent 花费两个小时协调 API 调用、编写文档并执行多步骤计划时,运行它的人通常并不比没有仪器的水手拥有更好的能见度。Agent 要么完成了,要么没完成。失败模式并不是崩溃——而是看似在工作却静默循环并烧掉 30 美元 token 的情况,或者是 Agent “成功”完成了错误的任务,因为它的世界模型在执行一小时后发生了偏移。

生产数据让这一点变得具体:据记录,未被发现的循环 Agent 在人工干预前曾重复相同的工具调用 58 次。按照前沿模型的费率,一个失控运行两小时的 Agent 在被察觉之前会耗费 15–40 美元。而最严重的失败并不是报错退出的那些——而是那 12–18% “成功”运行却返回看似合理实则错误答案的情况。

大多数团队采取的工程响应是日志。这是错误的工具。非结构化日志告诉你发生了什么;它们不会告诉你 Agent 在哪里,还要走多远,或者它所走的路径是否通向有意义的结果。你需要的是仪表,而不是黑匣子记录仪。

为什么 Agent 的进度难以衡量

困难不在于技术——而在于概念。传统软件以可计数的确定性步骤运行。一个包含 100 个数据库操作的任务,在执行 47 个操作后完成度就是 47%。Agent 的工作方式并非如此。

首先,任务范围在开始时通常是未知的。“研究这个主题并写一份报告”可能需要 20 次工具调用,也可能需要 200 次,这取决于 Agent 发现了什么。如果你不知道分母是多少,进度百分比就没有意义。

其次,Agent 可以在不产生明显向前推进的情况下保持高效。一个花费五分钟综合检索文档研究成果的 Agent 正在做有价值的工作,但从外部看,它与陷入循环的 Agent 看起来一模一样。区分这两者需要理解正在发生的内容,而不仅仅是知道有事情在发生。

第三,Agent 会重新考虑。一个在计划的 40 步任务中达到第 30 步,然后回溯修改其方法的 Agent 并没有坏——它可能正在做正确的事情。但对于观察步数的观察者来说,这看起来像是倒退。

METR 对长周期任务完成情况的研究显示,前沿模型能完成人类花费一定时间完成的任务的约 50%,以及耗时仅一半的任务的约 80%。这意味着:随着任务时长加倍,难度非线性增加,Agent 行为的差异性也是如此。任务越长,你越需要能够区分富有成效的挣扎与终结性偏移的仪器。

你真正需要的四种仪器

1. 结构化里程碑,而非日志行

第一种仪器是用结构化里程碑事件取代非结构化日志输出。Agent 每一个有意义的状态转换——开始研究阶段、完成综合步骤、决定修订计划——都应该发出一个机器可读的事件,其中包括 Agent 当前的目标、它刚刚做出的决定,以及它认为接下来的步骤。

这并不是为了冗长的日志记录。这是为了设计出能在决策边界将内部状态外部化的 Agent。事件格式至关重要,因为它能让你在下游构建仪表板、设置告警并计算进度指标。

一个知道自己已完成预计 23 个研究子任务中的 7 个的 Agent,其可观测性无限高于一个“已经运行了 40 分钟”的 Agent。里程碑结构迫使 Agent 显式地推理其自身的任务分解,这作为一个副作用,通常会提高计划质量——Agent 如果没有一个可供对照的计划,就无法发出里程碑。

2. 速度追踪

第二种仪器是追踪执行速度:Agent 在单位时间内完成了多少工作(根据近期步骤进行平滑处理)?

速度跌向零是“Agent 卡死综合症”最清晰的信号。它能捕捉到两种不同的失败模式:

硬循环:Agent 使用相同的输入调用相同的工具,并得到相同的输出。在这里速度不会下降——它甚至看起来高得不正常——但如果你对近期的 (tool-name, result-digest) 对进行指纹识别,并在一个窗口内发现 3 个以上相同的条目,那么你就遇到了循环。指纹识别方法之所以有效,是因为它捕捉的是内容层面的重复,而不仅仅是时间模式。

软停滞:Agent 继续执行,继续调用工具,但每一步产生的新信息都在递减。结果是新颖的,但并不能推动任务向前发展。追踪新信息速率(每个工具输出中有多少代表了 Agent 此前不具备的状态)的速度指标,能够将富有成效的工具使用与昂贵的噪音区分开来。

一个具体的阈值:如果速度在没有计划修订的情况下连续五步低于基准线的 20%,则进行升级处理。如果指纹识别的循环在十步窗口内出现三次,立即升级处理。

3. 置信度漂移检测

第三个工具追踪智能体在每个决策点的自我确定性。

大多数智能体架构都已经具备了置信度信号,即便它们没有被显式呈现:比如对下一步候选动作的注意力分布、智能体在提交步骤前生成的推理链长度,以及输出中模棱两可语言出现的频率。将这些信号形式化为数值化的置信度评估,并追踪其随时间的变化,可以为你提供方向性问题的早期预警系统。

在正常运行时,健康的智能体通常表现出 0.85 到 0.95 之间的置信度。有两种模式预示着麻烦:

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates