任务完成率指标变绿,而用户却在默默受苦
· 阅读需 9 分钟
你的智能体仪表盘显示任务完成率为 94%。领导层很满意。路线图获得了资金支持。然而,支持工单却在不断增加,核心用户变得沉默寡言,而那个负责观察追踪记录(traces)的工程师则一直在嘀咕情况不对劲。这两件事同时都是事实:智能体确实在完成任务;但它也为了完成一个两步就能搞定的工作,耗费了 12 分钟和 4000 个 token,反复回溯了三次,并要求用户确认一个它本可以从第一条消息中推断出来的实情。
任务完成率是一个隐藏了分布情况的二元指标。“智能体完成了任务”并不能告诉你它达成目标所走的路径,而路径才是用户实际体验的核心。完成率仪表盘在结构上无法察觉到一个缓慢、昂贵且令人恼火的智能体。它会一直保持绿色,直到用户流失。
这并不是一个可以通过更好的提示词来修补的测量差距,而是你选择测量什么而导致的“范畴错误”。完成率是最容易衡量的指标,但却是人们付费买单中最微不足道的部分。
